Fugu-MT 論文翻訳(概要): MGTBench: Benchmarking Machine-Generated Text Detection

論文の概要: MGTBench: Benchmarking Machine-Generated Text Detection

arxiv url: http://arxiv.org/abs/2303.14822v3
Date: Tue, 16 Jan 2024 02:48:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 03:09:51.754378
Title: MGTBench: Benchmarking Machine-Generated Text Detection
Title（参考訳）: MGTBench: ベンチマークマシン生成テキスト検出
Authors: Xinlei He and Xinyue Shen and Zeyuan Chen and Michael Backes and Yang Zhang
Abstract要約: 本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
参考スコア（独自算出の注目度）: 54.81446366272403
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Nowadays, powerful large language models (LLMs) such as ChatGPT have demonstrated revolutionary power in a variety of tasks. Consequently, the detection of machine-generated texts (MGTs) is becoming increasingly crucial as LLMs become more advanced and prevalent. These models have the ability to generate human-like language, making it challenging to discern whether a text is authored by a human or a machine. This raises concerns regarding authenticity, accountability, and potential bias. However, existing methods for detecting MGTs are evaluated using different model architectures, datasets, and experimental settings, resulting in a lack of a comprehensive evaluation framework that encompasses various methodologies. Furthermore, it remains unclear how existing detection methods would perform against powerful LLMs. In this paper, we fill this gap by proposing the first benchmark framework for MGT detection against powerful LLMs, named MGTBench. Extensive evaluations on public datasets with curated texts generated by various powerful LLMs such as ChatGPT-turbo and Claude demonstrate the effectiveness of different detection methods. Our ablation study shows that a larger number of words in general leads to better performance and most detection methods can achieve similar performance with much fewer training samples. Moreover, we delve into a more challenging task: text attribution. Our findings indicate that the model-based detection methods still perform well in the text attribution task. To investigate the robustness of different detection methods, we consider three adversarial attacks, namely paraphrasing, random spacing, and adversarial perturbations. We discover that these attacks can significantly diminish detection effectiveness, underscoring the critical need for the development of more robust detection methods.
Abstract（参考訳）: 現在、ChatGPTのような強力な大規模言語モデル(LLM)は、様々なタスクにおいて革命的なパワーを誇示している。その結果,LLMの高度化と普及に伴い,機械生成テキスト(MGT)の検出がますます重要になっている。これらのモデルには、人間のような言語を生成する能力があり、テキストが人間か機械によって書かれたかどうかを理解するのが困難である。これにより、信頼性、説明責任、潜在的なバイアスに関する懸念が持ち上がる。しかし、既存のMGTの検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定を用いて評価され、様々な方法論を含む包括的な評価フレームワークが欠如している。さらに、既存の検出手法が強力なLLMに対してどのように機能するかは、まだ不明である。本稿では,MGTBench という強力な LLM に対するMGT 検出のためのベンチマークフレームワークを提案することで,このギャップを埋める。 ChatGPT-turbo や Claude など,様々な強力な LLM が生成するキュレートテキストを用いた公開データセットの大規模な評価は,検出方法の有効性を示す。我々のアブレーション研究は、一般的に多くの単語が優れた性能をもたらすことを示し、ほとんどの検出方法は、トレーニングサンプルをはるかに少なくして同様のパフォーマンスを達成できることを示した。さらに、より難しいタスク、すなわちテキストの属性を掘り下げます。本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。異なる検出手法のロバスト性を検討するために,3つの対向攻撃,すなわちパラフレージング,ランダムスペーシング,対向的摂動について検討する。これらの攻撃は検出効率を著しく低下させ、より堅牢な検出方法の開発の必要性を強調する。

関連論文リスト

Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文参考訳（メタデータ） (2025-07-16T14:47:41Z)
Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors [4.7713095161046555]
本稿では,最新のMGT検出器の言語情報による敵攻撃に対するレジリエンスをテストするパイプラインを提案する。我々は、MGTスタイルを人文テキスト(HWT)にシフトするために、言語モデルを微調整する。これは検出器が構造的な手がかりに頼っていることを悪用し、新しい世代を検知することがより困難になる。
論文参考訳（メタデータ） (2025-05-30T12:33:30Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
TH-Bench: Evaluating Evading Attacks via Humanizing AI Text on Machine-Generated Text Detectors [15.533392810111298]
我々は、MGT検出器に対する回避攻撃を評価するための最初の総合的なベンチマークであるTH-Benchを紹介する。 TH-Benchは、有効性、テキスト品質、計算オーバーヘッドの3つの重要な側面にわたる攻撃を評価する。以上の結果から,3次元に1回の攻撃が及ばないことが判明した。
論文参考訳（メタデータ） (2025-03-10T02:55:05Z)
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。我々は,現在のSOTA検出器の強度と限界を明らかにした。 DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文参考訳（メタデータ） (2024-10-31T09:01:25Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
RAFT: Realistic Attacks to Fool Text Detectors [16.749257564123194]
大規模言語モデル(LLM)は、様々なタスクにまたがって顕著な流速を示した。偽情報の拡散など倫理的でない応用が懸念されている。 RAFT:既存のLLM検出器に対する文法エラーのないブラックボックス攻撃について述べる。
論文参考訳（メタデータ） (2024-10-04T17:59:00Z)
ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文参考訳（メタデータ） (2024-09-22T01:13:22Z)
MOSAIC: Multiple Observers Spotting AI Content, a Robust Approach to Machine-Generated Text Detection [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。人文テキストから人工的に生成されたものを自動判別する様々な提案がなされている。それぞれの強みを組み合わせるための、理論上は新たなアプローチを導出します。種々のジェネレータLSMを用いた実験により,本手法がロバスト検出性能を効果的に導くことが示唆された。
論文参考訳（メタデータ） (2024-09-11T20:55:12Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)
OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文参考訳（メタデータ） (2023-07-21T17:40:47Z)
G3Detector: General GPT-Generated Text Detector [26.47122201110071]
本研究では,多分野にわたる合成テキストの同定に長けた,予測できないが強力な検出手法を提案する。我々の検出器は、様々なモデルアーキテクチャと復号化戦略で一様に優れた性能を示す。また、強力な検出回避技術を用いて生成されたテキストを識別する機能も備えている。
論文参考訳（メタデータ） (2023-05-22T03:35:00Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。