論文の概要: Can AI-Generated Text be Reliably Detected?
- arxiv url: http://arxiv.org/abs/2303.11156v1
- Date: Fri, 17 Mar 2023 17:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:10:43.910502
- Title: Can AI-Generated Text be Reliably Detected?
- Title(参考訳): AI生成したテキストは確実に検出できるのか?
- Authors: Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao
Wang and Soheil Feizi
- Abstract要約: 大きな言語モデル(LLM)は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、特定のパターンをインプリントする透かし技術を適用するか、この問題に対処しようとしている。
本稿では,実証的および理論的に,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
これらの結果は、AI生成テキストの倫理的かつ信頼性の高い使用に関するコミュニティの正直な会話を開こうとしています。
- 参考スコア(独自算出の注目度): 43.25648146726716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of Large Language Models (LLMs) has made them capable of
performing astonishingly well on various tasks including document completion
and question answering. The unregulated use of these models, however, can
potentially lead to malicious consequences such as plagiarism, generating fake
news, spamming, etc. Therefore, reliable detection of AI-generated text can be
critical to ensure the responsible use of LLMs. Recent works attempt to tackle
this problem either using certain model signatures present in the generated
text outputs or by applying watermarking techniques that imprint specific
patterns onto them. In this paper, both empirically and theoretically, we show
that these detectors are not reliable in practical scenarios. Empirically, we
show that paraphrasing attacks, where a light paraphraser is applied on top of
the generative text model, can break a whole range of detectors, including the
ones using the watermarking schemes as well as neural network-based detectors
and zero-shot classifiers. We then provide a theoretical impossibility result
indicating that for a sufficiently good language model, even the best-possible
detector can only perform marginally better than a random classifier. Finally,
we show that even LLMs protected by watermarking schemes can be vulnerable
against spoofing attacks where adversarial humans can infer hidden watermarking
signatures and add them to their generated text to be detected as text
generated by the LLMs, potentially causing reputational damages to their
developers. We believe these results can open an honest conversation in the
community regarding the ethical and reliable use of AI-generated text.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、文書補完や質問応答といった様々なタスクで驚くほどうまく機能するようになりました。
しかし、これらのモデルの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
したがって、信頼できるai生成テキストの検出は、llmの責任ある使用を保証するために重要である。
最近の研究では、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、特定のパターンをインプリントする透かし技術を適用することでこの問題に対処しようとしている。
本稿では,実験的および理論的にこれらの検出器が実用シナリオでは信頼性に乏しいことを示す。
実験により、生成テキストモデル上に光パラフレーズが適用されるパラフレーズ攻撃は、ウォーターマーキングスキームやニューラルネットワークベースの検出器、ゼロショット分類器などを含む全範囲の検出器を破壊できることを示す。
そして, 十分な良質な言語モデルでは, 最善の確率検出器であっても, ランダム分類器よりもわずかによい性能しか発揮できないことを示す理論的不確実性結果を示す。
最後に,ウォーターマーキングスキームで保護されているllmであっても,悪意のある人間が隠れたウォーターマーキングサインを推測し,生成したテキストにそれを付加することで,llmが生成したテキストとして検出され,開発者の評判を損なう可能性があることを示す。
これらの結果は、AI生成テキストの倫理的かつ信頼性の高い使用に関するコミュニティの正直な会話を開こうとしています。
関連論文リスト
- Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - Evade ChatGPT Detectors via A Single Space [17.07852413707166]
既存の検出器は、人間が生成したテキストとAI生成したテキストの間に分散的なギャップがあるという仮定に基づいて構築されている。
検知器は人間の生成したテキストとAI生成したテキストのセマンティックスとスタイリスティックなギャップを効果的に識別できない。
検出を回避するためのSpaceInfi戦略を提案する。
論文 参考訳(メタデータ) (2023-07-05T18:48:28Z) - Multiscale Positive-Unlabeled Detection of AI-Generated Texts [27.956604193427772]
短文検出の難しさに対処するため,MPUトレーニングフレームワークを提案する。
MPU法は、長いAI生成テキストの検出性能を向上し、言語モデル検出器の短文検出を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-29T15:25:00Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。