論文の概要: Can AI-Generated Text be Reliably Detected?
- arxiv url: http://arxiv.org/abs/2303.11156v2
- Date: Wed, 28 Jun 2023 20:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 16:43:25.619324
- Title: Can AI-Generated Text be Reliably Detected?
- Title(参考訳): AI生成したテキストは確実に検出できるのか?
- Authors: Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao
Wang and Soheil Feizi
- Abstract要約: いくつかのAIテキスト検出装置は現実的なシナリオでは信頼性が低いことを示す。
大規模な言語モデルの上に光パラフラーを適用するパラフラー攻撃は、全範囲の検出器を破壊できることを示す。
これらの結果は、AI生成テキストの倫理的かつ信頼性の高い使用に関するコミュニティの正直な会話を開こうとしています。
- 参考スコア(独自算出の注目度): 43.25648146726716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, both empirically and theoretically, we show that several
AI-text detectors are not reliable in practical scenarios. Empirically, we show
that paraphrasing attacks, where a light paraphraser is applied on top of a
large language model (LLM), can break a whole range of detectors, including
ones using watermarking schemes as well as neural network-based detectors and
zero-shot classifiers. Our experiments demonstrate that retrieval-based
detectors, designed to evade paraphrasing attacks, are still vulnerable to
recursive paraphrasing. We then provide a theoretical impossibility result
indicating that as language models become more sophisticated and better at
emulating human text, the performance of even the best-possible detector
decreases. For a sufficiently advanced language model seeking to imitate human
text, even the best-possible detector may only perform marginally better than a
random classifier. Our result is general enough to capture specific scenarios
such as particular writing styles, clever prompt design, or text paraphrasing.
We also extend the impossibility result to include the case where pseudorandom
number generators are used for AI-text generation instead of true randomness.
We show that the same result holds with a negligible correction term for all
polynomial-time computable detectors. Finally, we show that even LLMs protected
by watermarking schemes can be vulnerable against spoofing attacks where
adversarial humans can infer hidden LLM text signatures and add them to
human-generated text to be detected as text generated by the LLMs, potentially
causing reputational damage to their developers. We believe these results can
open an honest conversation in the community regarding the ethical and reliable
use of AI-generated text.
- Abstract(参考訳): 本稿では,経験的かつ理論的に,いくつかのAIテキスト検出装置が現実的なシナリオでは信頼できないことを示す。
実験により,大規模な言語モデル (LLM) 上に光パラフレーズが適用されるパラフレーズ攻撃は,ウォーターマーキングスキームやニューラルネットワークベースの検出器,ゼロショット分類器などを含む,あらゆる種類の検出器を破壊できることを示す。
本実験は, 再帰的パラフレージングに対して依然として脆弱であることを示す。
次に, 言語モデルがより洗練され, 人間の文章をエミュレートする能力が向上するにつれて, 最良検出器でも性能が低下することを示す理論的に不可能であることを示す。
人間の文章を模倣しようとする十分に高度な言語モデルにとって、最も有望な検出器でさえ、ランダムな分類器よりもわずかに優れている。
私たちの結果は、特定の記述スタイル、巧妙なプロンプトデザイン、テキストパラフレーズなど、特定のシナリオを捉えるのに十分です。
また、擬似乱数生成器が真のランダム性ではなく、AIテキスト生成に使用される場合を含むように、不可能な結果も拡張する。
すべての多項式時間計算可能検出器に対して、同じ結果が無視可能な補正項を持つことを示す。
最後に、透かし方式で保護されたLLMでさえ、敵対する人間が隠れたLLMテキストシグネチャを推測し、LLMが生成したテキストとして検出する人為的なテキストに追加できる偽造攻撃に対して脆弱であり、開発者が評判を損なう可能性があることを示す。
これらの結果は、AI生成テキストの倫理的かつ信頼性の高い使用に関するコミュニティの正直な会話を開こうとしています。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
我々は,現在のSOTA検出器の強度と限界を明らかにした。
DetectRLは、実世界のシナリオにおける検出器の評価に有効なベンチマークになり得ると考えている。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。
本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。
我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文 参考訳(メタデータ) (2024-09-22T01:13:22Z) - The Impact of Prompts on Zero-Shot Detection of AI-Generated Text [4.337364406035291]
チャットベースのアプリケーションでは、ユーザーは一般的にAI生成テキストのプロンプトを入力し、利用する。
本稿では,AI生成テキストの検出精度に対するプロンプトの影響を実証的に分析するための評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T11:33:34Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。