論文の概要: M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text
Detection
- arxiv url: http://arxiv.org/abs/2402.11175v1
- Date: Sat, 17 Feb 2024 02:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 23:03:04.583917
- Title: M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text
Detection
- Title(参考訳): M4GT-Bench:ブラックボックスマシン生成テキスト検出のための評価ベンチマーク
- Authors: Yuxia Wang, Jonibek Mansurov, Petar Ivanov, Jinyan Su, Artem
Shelmanov, Akim Tsvigun, Osama Mohanned Afzal, Tarek Mahmoud, Giovanni
Puccetti, Thomas Arnold, Alham Fikri Aji, Nizar Habash, Iryna Gurevych,
Preslav Nakov
- Abstract要約: 大規模言語モデル(LLM)は、機械生成テキスト(MGT)に前例のない急上昇をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
これらの内容と本物の人間生成テキストを識別し区別する必要性は、偽情報との戦いにおいて重要である。
- 参考スコア(独自算出の注目度): 70.96684450854274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Large Language Models (LLMs) has brought an unprecedented surge
in machine-generated text (MGT) across diverse channels. This raises legitimate
concerns about its potential misuse and societal implications. The need to
identify and differentiate such content from genuine human-generated text is
critical in combating disinformation, preserving the integrity of education and
scientific fields, and maintaining trust in communication. In this work, we
address this problem by introducing a new benchmark involving multilingual,
multi-domain and multi-generator for MGT detection -- M4GT-Bench. It is
collected for three task formulations: (1) mono-lingual and multi-lingual
binary MGT detection; (2) multi-way detection identifies which particular model
generates the text; and (3) human-machine mixed text detection, where a word
boundary delimiting MGT from human-written content should be determined. Human
evaluation for Task 2 shows less than random guess performance, demonstrating
the challenges to distinguish unique LLMs. Promising results always occur when
training and test data distribute within the same domain or generators.
- Abstract(参考訳): LLM(Large Language Models)の出現は、様々なチャネルにわたる機械生成テキスト(MGT)の急上昇をもたらした。
これは、その潜在的な誤用と社会的意味に関する正当な懸念を引き起こす。
これらの内容と本物の人間生成テキストを識別し区別することの必要性は、偽情報と戦うこと、教育と科学分野の整合性を維持すること、コミュニケーションへの信頼を維持するために重要である。
本研究では,MGT検出のための多言語,マルチドメイン,マルチジェネレータを含む新しいベンチマークであるM4GT-Benchを導入することで,この問題に対処する。
1) 単言語性および多言語性mgtの検出、(2) 特定のモデルがテキストを生成するかを特定するマルチウェイ検出、(3) 人間が書いたコンテンツからmgtを識別する単語境界を決定するためのヒューマンマシン混合テキスト検出の3つのタスク定式化で収集する。
タスク2の人間による評価は、ランダムな推測性能よりも低く、ユニークなLLMを区別する上での課題を示す。
トレーニングとテストデータが同じドメインやジェネレータ内で分散する場合、結果のプロミシングは常に発生する。
関連論文リスト
- Detecting Machine-Generated Texts by Multi-Population Aware Optimization
for Maximum Mean Discrepancy [47.382793714455445]
機械生成テキスト(MGT)は、盗作、誤解を招く情報、幻覚などの重大なリスクを負う可能性がある。
MGTと人文テキストを区別することは困難である。
そこで本研究では,MDD-MPと呼ばれるMDDのテキストマルチユーザ対応最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-25T09:44:56Z) - KInIT at SemEval-2024 Task 8: Fine-tuned LLMs for Multilingual
Machine-Generated Text Detection [0.0]
SemEval-2024 Task 8は、マルチジェネレータ、マルチドメイン、マルチランガルブラックボックスマシン生成テキスト検出に重点を置いている。
提案手法は,第4位にランクインし,勝者のわずか1ポイント未満の競争結果を得た。
論文 参考訳(メタデータ) (2024-02-21T10:09:56Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - LLM-as-a-Coauthor: The Challenges of Detecting LLM-Human Mixcase [17.584935072725028]
機械生成コンテンツと人間生成コンテンツの両方を含むハイブリッドテキスト形式を表現する新しい概念であるmixcaseを紹介した。
我々は,MGT検出器の有効性を評価する実験を行い,その有効性,堅牢性,性能の一般化を評価した。
この研究は、ミックスケース用に調整されたより微細な検出器が緊急に必要であることを示すもので、将来の研究に有用な洞察を提供する。
論文 参考訳(メタデータ) (2024-01-11T14:44:08Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Paraphrase Detection: Human vs. Machine Content [3.8768839735240737]
人間が書いたパラフレーズは、難易度、多様性、類似性の点で機械生成のパラフレーズを超えている。
トランスフォーマーは、意味的に多様なコーパスに優れたTF-IDFを持つデータセット間で最も効果的な方法として登場した。
論文 参考訳(メタデータ) (2023-03-24T13:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。