論文の概要: DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detecting Boundaries of Machine-Generated Texts
- arxiv url: http://arxiv.org/abs/2405.10629v1
- Date: Fri, 17 May 2024 08:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:32:42.323298
- Title: DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detecting Boundaries of Machine-Generated Texts
- Title(参考訳): DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detectioning boundary of Machine-Generated Texts (英語)
- Authors: Anastasia Voznyuk, Vasily Konovalov,
- Abstract要約: DeBERTaV3の教師付き微調整のためのデータ拡張パイプラインを提案する。
競争のリーダーボードによると、私たちはこのパイプラインで新しい最高のMAEスコアを受け取ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection shared task in the SemEval-2024 competition aims to tackle the problem of misusing collaborative human-AI writing. Although there are a lot of existing detectors of AI content, they are often designed to give a binary answer and thus may not be suitable for more nuanced problem of finding the boundaries between human-written and machine-generated texts, while hybrid human-AI writing becomes more and more popular. In this paper, we address the boundary detection problem. Particularly, we present a pipeline for augmenting data for supervised fine-tuning of DeBERTaV3. We receive new best MAE score, according to the leaderboard of the competition, with this pipeline.
- Abstract(参考訳): SemEval-2024コンペティションにおけるマルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出共有タスクは、協調AI書き込みを誤用する問題に対処することを目的としている。
AIコンテンツの既存の検出器は数多く存在するが、それらはバイナリな回答を与えるように設計されているため、人書きテキストと機械生成テキストの境界を見つけるためのより微妙な問題には適さないかもしれない。
本稿では境界検出問題に対処する。
特に,DeBERTaV3の教師付き微調整のためのデータ拡張パイプラインを提案する。
競争のリーダーボードによると、私たちはこのパイプラインで新しい最高のMAEスコアを受け取ります。
関連論文リスト
- GenAI Content Detection Task 3: Cross-Domain Machine-Generated Text Detection Challenge [71.69373986176839]
モデルが巨大な、固定された、多数のドメインとLLMから生成されたテキストを検出できるかどうかを問う。
3ヶ月の間に、23の検出器を提出した9つのチームによって、我々のタスクが試みられた。
その結果, RAID から生成したテキストに対して, 5% の偽陽性率を維持しながら, 精度が 99% を超えることが判明した。
論文 参考訳(メタデータ) (2025-01-15T16:21:09Z) - MOSAIC: Multiple Observers Spotting AI Content, a Robust Approach to Machine-Generated Text Detection [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
人文テキストから人工的に生成されたものを自動判別する様々な提案がなされている。
それぞれの強みを組み合わせるための、理論上は新たなアプローチを導出します。
種々のジェネレータLSMを用いた実験により,本手法がロバスト検出性能を効果的に導くことが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text [7.959800630494841]
SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。
本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。
私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
論文 参考訳(メタデータ) (2024-07-03T10:22:23Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - AI-generated text boundary detection with RoFT [7.2286849324485445]
テキストの書き起こし部分と機械生成部分の境界を検出する方法について検討する。
特に,境界検出に対するパープレキシティに基づくアプローチは,RoBERTaモデルの教師付き微調整よりも,ドメイン固有データの特異性に頑健であることがわかった。
論文 参考訳(メタデータ) (2023-11-14T17:48:19Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。