論文の概要: M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2402.11175v2
- Date: Thu, 27 Jun 2024 05:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 19:37:12.781061
- Title: M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection
- Title(参考訳): M4GT-Bench:ブラックボックスマシン生成テキスト検出のための評価ベンチマーク
- Authors: Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem Shelmanov, Akim Tsvigun, Osama Mohanned Afzal, Tarek Mahmoud, Giovanni Puccetti, Thomas Arnold, Alham Fikri Aji, Nizar Habash, Iryna Gurevych, Preslav Nakov,
- Abstract要約: 大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 69.41274756177336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Large Language Models (LLMs) has brought an unprecedented surge in machine-generated text (MGT) across diverse channels. This raises legitimate concerns about its potential misuse and societal implications. The need to identify and differentiate such content from genuine human-generated text is critical in combating disinformation, preserving the integrity of education and scientific fields, and maintaining trust in communication. In this work, we address this problem by introducing a new benchmark based on a multilingual, multi-domain, and multi-generator corpus of MGTs -- M4GT-Bench. The benchmark is compiled of three tasks: (1) mono-lingual and multi-lingual binary MGT detection; (2) multi-way detection where one need to identify, which particular model generated the text; and (3) mixed human-machine text detection, where a word boundary delimiting MGT from human-written content should be determined. On the developed benchmark, we have tested several MGT detection baselines and also conducted an evaluation of human performance. We see that obtaining good performance in MGT detection usually requires an access to the training data from the same domain and generators. The benchmark is available at https://github.com/mbzuai-nlp/M4GT-Bench.
- Abstract(参考訳): LLM(Large Language Models)の出現は、様々なチャネルにわたる機械生成テキスト(MGT)の急上昇をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
これらの内容と本物の人間生成テキストを識別し区別することの必要性は、偽情報と戦うこと、教育と科学分野の整合性を維持すること、コミュニケーションへの信頼を維持するために重要である。
本研究では,MGTs-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを導入することで,この問題に対処する。
本ベンチマークは,(1)単言語および多言語バイナリMGT検出,(2)特定のモデルが生成したテキストを識別するマルチウェイ検出,(3)人文コンテンツからMGTを識別する単語境界を決定する,3つのタスクからなる。
開発したベンチマークでは,複数のMGT検出基準線を試験し,人体の性能評価を行った。
MGT検出において優れた性能を得るには、通常、同じドメインとジェネレータからトレーニングデータにアクセスする必要がある。
ベンチマークはhttps://github.com/mbzuai-nlp/M4GT-Benchで公開されている。
関連論文リスト
- Sharif-MGTD at SemEval-2024 Task 8: A Transformer-Based Approach to Detect Machine Generated Text [2.2039952888743253]
MGTは自然言語処理において重要な研究領域となっている。
本研究では,強力なニューラルアーキテクチャであるRoBERTaベーストランスを微調整し,MGT検出に対処する効果について検討する。
提案システムでは,テストデータセットの78.9%の精度を達成し,参加者の57位に位置づけた。
論文 参考訳(メタデータ) (2024-07-16T14:33:01Z) - Detecting Machine-Generated Texts by Multi-Population Aware Optimization
for Maximum Mean Discrepancy [47.382793714455445]
機械生成テキスト(MGT)は、盗作、誤解を招く情報、幻覚などの重大なリスクを負う可能性がある。
MGTと人文テキストを区別することは困難である。
そこで本研究では,MDD-MPと呼ばれるMDDのテキストマルチユーザ対応最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-25T09:44:56Z) - Machine-Generated Text Localization [16.137882615106523]
これまでの作業では、主にMGT検出を文書全体に対するバイナリ分類タスクとして定式化してきた。
本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。
事前の作業よりも平均精度(mAP)が4-13%向上したことは、5つの多様なデータセットに対するアプローチの有効性を示している。
論文 参考訳(メタデータ) (2024-02-19T00:07:28Z) - LLM-as-a-Coauthor: Can Mixed Human-Written and Machine-Generated Text Be Detected? [13.813769457594216]
現在の研究は主に、混合シナリオに適切に対処することなく、純粋なMGT検出に焦点を当てている。
AIと人為的コンテンツの両方を含む混合テキストの形式であるmixtextを定義します。
既存の検出器はミックステキストの識別に苦慮し,特に微妙な修正やスタイル適応性に対処している。
論文 参考訳(メタデータ) (2024-01-11T14:44:08Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。