論文の概要: MGTBench: Benchmarking Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2303.14822v3
- Date: Tue, 16 Jan 2024 02:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:09:51.754378
- Title: MGTBench: Benchmarking Machine-Generated Text Detection
- Title(参考訳): MGTBench: ベンチマークマシン生成テキスト検出
- Authors: Xinlei He and Xinyue Shen and Zeyuan Chen and Michael Backes and Yang
Zhang
- Abstract要約: 本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
- 参考スコア(独自算出の注目度): 54.81446366272403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, powerful large language models (LLMs) such as ChatGPT have
demonstrated revolutionary power in a variety of tasks. Consequently, the
detection of machine-generated texts (MGTs) is becoming increasingly crucial as
LLMs become more advanced and prevalent. These models have the ability to
generate human-like language, making it challenging to discern whether a text
is authored by a human or a machine. This raises concerns regarding
authenticity, accountability, and potential bias. However, existing methods for
detecting MGTs are evaluated using different model architectures, datasets, and
experimental settings, resulting in a lack of a comprehensive evaluation
framework that encompasses various methodologies. Furthermore, it remains
unclear how existing detection methods would perform against powerful LLMs. In
this paper, we fill this gap by proposing the first benchmark framework for MGT
detection against powerful LLMs, named MGTBench. Extensive evaluations on
public datasets with curated texts generated by various powerful LLMs such as
ChatGPT-turbo and Claude demonstrate the effectiveness of different detection
methods. Our ablation study shows that a larger number of words in general
leads to better performance and most detection methods can achieve similar
performance with much fewer training samples. Moreover, we delve into a more
challenging task: text attribution. Our findings indicate that the model-based
detection methods still perform well in the text attribution task. To
investigate the robustness of different detection methods, we consider three
adversarial attacks, namely paraphrasing, random spacing, and adversarial
perturbations. We discover that these attacks can significantly diminish
detection effectiveness, underscoring the critical need for the development of
more robust detection methods.
- Abstract(参考訳): 現在、ChatGPTのような強力な大規模言語モデル(LLM)は、様々なタスクにおいて革命的なパワーを誇示している。
その結果,LLMの高度化と普及に伴い,機械生成テキスト(MGT)の検出がますます重要になっている。
これらのモデルには、人間のような言語を生成する能力があり、テキストが人間か機械によって書かれたかどうかを理解するのが困難である。
これにより、信頼性、説明責任、潜在的なバイアスに関する懸念が持ち上がる。
しかし、既存のMGTの検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定を用いて評価され、様々な方法論を含む包括的な評価フレームワークが欠如している。
さらに、既存の検出手法が強力なLLMに対してどのように機能するかは、まだ不明である。
本稿では,MGTBench という強力な LLM に対するMGT 検出のためのベンチマークフレームワークを提案することで,このギャップを埋める。
ChatGPT-turbo や Claude など,様々な強力な LLM が生成するキュレートテキストを用いた公開データセットの大規模な評価は,検出方法の有効性を示す。
我々のアブレーション研究は、一般的に多くの単語が優れた性能をもたらすことを示し、ほとんどの検出方法は、トレーニングサンプルをはるかに少なくして同様のパフォーマンスを達成できることを示した。
さらに、より難しいタスク、すなわちテキストの属性を掘り下げます。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
異なる検出手法のロバスト性を検討するために,3つの対向攻撃,すなわちパラフレージング,ランダムスペーシング,対向的摂動について検討する。
これらの攻撃は検出効率を著しく低下させ、より堅牢な検出方法の開発の必要性を強調する。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - RAFT: Realistic Attacks to Fool Text Detectors [16.749257564123194]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な流速を示した。
偽情報の拡散など倫理的でない応用が懸念されている。
RAFT:既存のLLM検出器に対する文法エラーのないブラックボックス攻撃について述べる。
論文 参考訳(メタデータ) (2024-10-04T17:59:00Z) - ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。
本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。
我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文 参考訳(メタデータ) (2024-09-22T01:13:22Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - G3Detector: General GPT-Generated Text Detector [26.47122201110071]
本研究では,多分野にわたる合成テキストの同定に長けた,予測できないが強力な検出手法を提案する。
我々の検出器は、様々なモデルアーキテクチャと復号化戦略で一様に優れた性能を示す。
また、強力な検出回避技術を用いて生成されたテキストを識別する機能も備えている。
論文 参考訳(メタデータ) (2023-05-22T03:35:00Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。