論文の概要: On the Zero-Shot Generalization of Machine-Generated Text Detectors
- arxiv url: http://arxiv.org/abs/2310.05165v1
- Date: Sun, 8 Oct 2023 13:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:52:34.991365
- Title: On the Zero-Shot Generalization of Machine-Generated Text Detectors
- Title(参考訳): 機械生成テキスト検出器のゼロショット一般化について
- Authors: Xiao Pu, Jingyu Zhang, Xiaochuang Han, Yulia Tsvetkov, Tianxing He
- Abstract要約: 大規模な言語モデルは、人間が書く言語と区別できないテキストを生成するのに十分な流動性を持っている。
この研究は重要な研究課題によって動機付けられている: 機械が生成したテキストの検出器は、新しい発電機の出力でどのように動作し、検出器が訓練されていないか?
- 参考スコア(独自算出の注目度): 41.25534723956849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rampant proliferation of large language models, fluent enough to generate
text indistinguishable from human-written language, gives unprecedented
importance to the detection of machine-generated text. This work is motivated
by an important research question: How will the detectors of machine-generated
text perform on outputs of a new generator, that the detectors were not trained
on? We begin by collecting generation data from a wide range of LLMs, and train
neural detectors on data from each generator and test its performance on
held-out generators. While none of the detectors can generalize to all
generators, we observe a consistent and interesting pattern that the detectors
trained on data from a medium-size LLM can zero-shot generalize to the larger
version. As a concrete application, we demonstrate that robust detectors can be
built on an ensemble of training data from medium-sized models.
- Abstract(参考訳): 大規模言語モデルの急激な増殖は、人間の書き言葉と区別できないテキストを生成するのに十分な流動性を持ち、機械生成されたテキストの検出に前例のない重要性をもたらす。
この研究は重要な研究課題によって動機付けられている: 機械が生成したテキストの検出器は、新しい発電機の出力でどのように動作するのか。
まず、幅広いllmから生成データを収集し、各ジェネレータからデータに基づいてニューラルネットワーク検出器を訓練し、その性能を保留ジェネレータでテストする。
いずれの検出器も全てのジェネレータに一般化することはできないが、中規模のLCMのデータに基づいて訓練された検出器がゼロショットでより大きなバージョンに一般化できる、一貫性のある興味深いパターンを観察する。
具体的な応用として,中規模モデルからのトレーニングデータのアンサンブル上にロバスト検出器を構築できることを実証する。
関連論文リスト
- Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - EAGLE: A Domain Generalization Framework for AI-generated Text Detection [15.254775341371364]
本稿では,未知のターゲットジェネレータからAI生成テキストを検出するための領域一般化フレームワークを提案する。
我々は,未知のターゲットジェネレータが生成したテキストの検出において,我々のフレームワークがいかに効果的に優れた性能を実現するかを実証する。
論文 参考訳(メタデータ) (2024-03-23T02:44:20Z) - Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text [98.28130949052313]
密接に関連する2つの言語モデルとの対比に基づくスコアは、人文と機械文の分離に極めて正確である。
本稿では,一対の事前学習 LLM を用いた簡単な計算しか必要としない新しい LLM 検出器を提案する。
Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-01-22T16:09:47Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Unsupervised and Distributional Detection of Machine-Generated Text [1.552214657968262]
自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。
繰り返し高次n-gramを利用した機械生成文書の検出手法を提案する。
我々の実験は、その信号を利用することで、不審な文書を正確にランク付けできることを示している。
論文 参考訳(メタデータ) (2021-11-04T14:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。