論文の概要: On the Zero-Shot Generalization of Machine-Generated Text Detectors
- arxiv url: http://arxiv.org/abs/2310.05165v1
- Date: Sun, 8 Oct 2023 13:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:52:34.991365
- Title: On the Zero-Shot Generalization of Machine-Generated Text Detectors
- Title(参考訳): 機械生成テキスト検出器のゼロショット一般化について
- Authors: Xiao Pu, Jingyu Zhang, Xiaochuang Han, Yulia Tsvetkov, Tianxing He
- Abstract要約: 大規模な言語モデルは、人間が書く言語と区別できないテキストを生成するのに十分な流動性を持っている。
この研究は重要な研究課題によって動機付けられている: 機械が生成したテキストの検出器は、新しい発電機の出力でどのように動作し、検出器が訓練されていないか?
- 参考スコア(独自算出の注目度): 41.25534723956849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rampant proliferation of large language models, fluent enough to generate
text indistinguishable from human-written language, gives unprecedented
importance to the detection of machine-generated text. This work is motivated
by an important research question: How will the detectors of machine-generated
text perform on outputs of a new generator, that the detectors were not trained
on? We begin by collecting generation data from a wide range of LLMs, and train
neural detectors on data from each generator and test its performance on
held-out generators. While none of the detectors can generalize to all
generators, we observe a consistent and interesting pattern that the detectors
trained on data from a medium-size LLM can zero-shot generalize to the larger
version. As a concrete application, we demonstrate that robust detectors can be
built on an ensemble of training data from medium-sized models.
- Abstract(参考訳): 大規模言語モデルの急激な増殖は、人間の書き言葉と区別できないテキストを生成するのに十分な流動性を持ち、機械生成されたテキストの検出に前例のない重要性をもたらす。
この研究は重要な研究課題によって動機付けられている: 機械が生成したテキストの検出器は、新しい発電機の出力でどのように動作するのか。
まず、幅広いllmから生成データを収集し、各ジェネレータからデータに基づいてニューラルネットワーク検出器を訓練し、その性能を保留ジェネレータでテストする。
いずれの検出器も全てのジェネレータに一般化することはできないが、中規模のLCMのデータに基づいて訓練された検出器がゼロショットでより大きなバージョンに一般化できる、一貫性のある興味深いパターンを観察する。
具体的な応用として,中規模モデルからのトレーニングデータのアンサンブル上にロバスト検出器を構築できることを実証する。
関連論文リスト
- EAGLE: A Domain Generalization Framework for AI-generated Text Detection [15.254775341371364]
本稿では,未知のターゲットジェネレータからAI生成テキストを検出するための領域一般化フレームワークを提案する。
我々は,未知のターゲットジェネレータが生成したテキストの検出において,我々のフレームワークがいかに効果的に優れた性能を実現するかを実証する。
論文 参考訳(メタデータ) (2024-03-23T02:44:20Z) - Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated
Text [102.51430575139572]
密接に関連する2つの言語モデルとの対比に基づくスコアは、人文と機械文の分離に極めて正確である。
本稿では,一対の事前学習 LLM を用いた簡単な計算しか必要としない新しい LLM 検出器を提案する。
Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-01-22T16:09:47Z) - Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text [8.290557547578146]
プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。
提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
論文 参考訳(メタデータ) (2024-01-17T18:45:13Z) - A Block Metropolis-Hastings Sampler for Controllable Energy-based Text
Generation [78.81021361497311]
我々は,大規模言語モデルの反復的プロンプトを通じて,各ステップにおけるシーケンス全体の書き直しを提案する新しいメトロポリス・ハスティングス(MH)サンプリング器を開発した。
対象分布からより効率的かつ正確なサンプリングが可能となり, (b) 事前に固定するのではなく, サンプリング手順により生成長を決定することが可能となった。
論文 参考訳(メタデータ) (2023-12-07T18:30:15Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Unsupervised and Distributional Detection of Machine-Generated Text [1.552214657968262]
自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。
繰り返し高次n-gramを利用した機械生成文書の検出手法を提案する。
我々の実験は、その信号を利用することで、不審な文書を正確にランク付けできることを示している。
論文 参考訳(メタデータ) (2021-11-04T14:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。