論文の概要: Can AI-Generated Text be Reliably Detected?
- arxiv url: http://arxiv.org/abs/2303.11156v3
- Date: Mon, 19 Feb 2024 16:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 07:10:01.333037
- Title: Can AI-Generated Text be Reliably Detected?
- Title(参考訳): AI生成したテキストは確実に検出できるのか?
- Authors: Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao
Wang and Soheil Feizi
- Abstract要約: LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
- 参考スコア(独自算出の注目度): 54.670136179857344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unregulated use of LLMs can potentially lead to malicious consequences
such as plagiarism, generating fake news, spamming, etc. Therefore, reliable
detection of AI-generated text can be critical to ensure the responsible use of
LLMs. Recent works attempt to tackle this problem either using certain model
signatures present in the generated text outputs or by applying watermarking
techniques that imprint specific patterns onto them. In this paper, we show
that these detectors are not reliable in practical scenarios. In particular, we
develop a recursive paraphrasing attack to apply on AI text, which can break a
whole range of detectors, including the ones using the watermarking schemes as
well as neural network-based detectors, zero-shot classifiers, and
retrieval-based detectors. Our experiments include passages around 300 tokens
in length, showing the sensitivity of the detectors even in the case of
relatively long passages. We also observe that our recursive paraphrasing only
degrades text quality slightly, measured via human studies, and metrics such as
perplexity scores and accuracy on text benchmarks. Additionally, we show that
even LLMs protected by watermarking schemes can be vulnerable against spoofing
attacks aimed to mislead detectors to classify human-written text as
AI-generated, potentially causing reputational damages to the developers. In
particular, we show that an adversary can infer hidden AI text signatures of
the LLM outputs without having white-box access to the detection method.
Finally, we provide a theoretical connection between the AUROC of the best
possible detector and the Total Variation distance between human and AI text
distributions that can be used to study the fundamental hardness of the
reliable detection problem for advanced language models. Our code is publicly
available at https://github.com/vinusankars/Reliability-of-AI-text-detectors.
- Abstract(参考訳): LLMの規制されていない使用は、盗作、偽ニュース、スパムなどの悪意ある結果をもたらす可能性がある。
したがって、信頼できるai生成テキストの検出は、llmの責任ある使用を保証するために重要である。
最近の研究では、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、特定のパターンをインプリントする透かし技術を適用することでこの問題に対処しようとしている。
本稿では,これらの検出器が実用シナリオでは信頼性に乏しいことを示す。
特に,aiテキストに適用するための再帰的パラフレージング攻撃を開発し,ウォーターマーキングスキームやニューラルネットワークに基づく検出器,ゼロショット分類器,検索ベースの検出器など,さまざまな検出器を破ることができる。
実験では, 比較的長い通路であっても, 300個のトークンを長さで通過させ, 検出器の感度を示す。
また,人間実験やパープレキシティスコアやテキストベンチマークの精度などの指標によって,再帰的パラフラージングが文章品質をわずかに低下させるだけであることも観察した。
さらに,ウォーターマーキング方式で保護されたllmであっても,ai生成と分類する検知器を誤認することを目的としたスプーフィング攻撃に対して脆弱であり,開発者の評判を損なう可能性があることを示す。
特に,LLM出力の隠れたAIテキストシグネチャを,検出方法にホワイトボックスアクセスすることなく推測可能であることを示す。
最後に、最良検出器のAUROCと人間とAIのテキスト分布のトータル変動距離を理論的に関連付けることにより、先進言語モデルにおける信頼性検出問題の基本的な硬さについて研究することができる。
私たちのコードはhttps://github.com/vinusankars/Reliability-of-AI-text-detectorsで公開されています。
関連論文リスト
- Adversarial Attacks on AI-Generated Text Detection Models: A Token Probability-Based Approach Using Embeddings [14.150011713654331]
本研究では,Fast-DetectGPTなどの検出モデルに対する新たなテキスト逆攻撃を提案する。
この手法では、AI生成したテキストの再構築を目的として、データ摂動の埋め込みモデルを用いて、テキストの真の起源を検出する可能性を低減する。
論文 参考訳(メタデータ) (2025-01-31T10:06:27Z) - DAMAGE: Detecting Adversarially Modified AI Generated Text [0.13108652488669736]
既存のAI検出器の多くが、人間化されたテキストを検出できないことを示す。
偽陽性率を低く保ちながら、人間化されたAIテキストを検出する頑健なモデルを実証する。
論文 参考訳(メタデータ) (2025-01-06T23:43:49Z) - MOSAIC: Multiple Observers Spotting AI Content, a Robust Approach to Machine-Generated Text Detection [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
人文テキストから人工的に生成されたものを自動判別する様々な提案がなされている。
それぞれの強みを組み合わせるための、理論上は新たなアプローチを導出します。
種々のジェネレータLSMを用いた実験により,本手法がロバスト検出性能を効果的に導くことが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - SilverSpeak: Evading AI-Generated Text Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - The Impact of Prompts on Zero-Shot Detection of AI-Generated Text [4.337364406035291]
チャットベースのアプリケーションでは、ユーザーは一般的にAI生成テキストのプロンプトを入力し、利用する。
本稿では,AI生成テキストの検出精度に対するプロンプトの影響を実証的に分析するための評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T11:33:34Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。