論文の概要: DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detecting Boundaries of Machine-Generated Texts
- arxiv url: http://arxiv.org/abs/2405.10629v1
- Date: Fri, 17 May 2024 08:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:32:42.323298
- Title: DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detecting Boundaries of Machine-Generated Texts
- Title(参考訳): DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detectioning boundary of Machine-Generated Texts (英語)
- Authors: Anastasia Voznyuk, Vasily Konovalov,
- Abstract要約: DeBERTaV3の教師付き微調整のためのデータ拡張パイプラインを提案する。
競争のリーダーボードによると、私たちはこのパイプラインで新しい最高のMAEスコアを受け取ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection shared task in the SemEval-2024 competition aims to tackle the problem of misusing collaborative human-AI writing. Although there are a lot of existing detectors of AI content, they are often designed to give a binary answer and thus may not be suitable for more nuanced problem of finding the boundaries between human-written and machine-generated texts, while hybrid human-AI writing becomes more and more popular. In this paper, we address the boundary detection problem. Particularly, we present a pipeline for augmenting data for supervised fine-tuning of DeBERTaV3. We receive new best MAE score, according to the leaderboard of the competition, with this pipeline.
- Abstract(参考訳): SemEval-2024コンペティションにおけるマルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出共有タスクは、協調AI書き込みを誤用する問題に対処することを目的としている。
AIコンテンツの既存の検出器は数多く存在するが、それらはバイナリな回答を与えるように設計されているため、人書きテキストと機械生成テキストの境界を見つけるためのより微妙な問題には適さないかもしれない。
本稿では境界検出問題に対処する。
特に,DeBERTaV3の教師付き微調整のためのデータ拡張パイプラインを提案する。
競争のリーダーボードによると、私たちはこのパイプラインで新しい最高のMAEスコアを受け取ります。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Mast Kalandar at SemEval-2024 Task 8: On the Trail of Textual Origins: RoBERTa-BiLSTM Approach to Detect AI-Generated Text [7.959800630494841]
SemEval 2024は、マルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出のタスクを導入している。
本稿では,テキストをAI生成か人間かの2つのカテゴリに分類するために,RoBERTa-BiLSTMに基づく分類器を提案する。
私たちのアーキテクチャは、125の内、80.83の正確さで、公式のリーダーボードで46位でした。
論文 参考訳(メタデータ) (2024-07-03T10:22:23Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - AI-generated text boundary detection with RoFT [7.2286849324485445]
テキストの書き起こし部分と機械生成部分の境界を検出する方法について検討する。
特に,境界検出に対するパープレキシティに基づくアプローチは,RoBERTaモデルの教師付き微調整よりも,ドメイン固有データの特異性に頑健であることがわかった。
論文 参考訳(メタデータ) (2023-11-14T17:48:19Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid
Essay in Education [10.606131520965604]
本研究では,滅多に調査されていない現実的な環境下でのAIコンテンツ検出について検討する。
まず,人書きコンテンツとAI生成コンテンツ間の遷移点の同定として,検出タスクを定式化した。
次に、エンコーダトレーニングプロセス中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案した。
論文 参考訳(メタデータ) (2023-07-23T08:47:51Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。