論文の概要: Token-Ensemble Text Generation: On Attacking the Automatic AI-Generated
Text Detection
- arxiv url: http://arxiv.org/abs/2402.11167v1
- Date: Sat, 17 Feb 2024 02:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 23:01:59.342743
- Title: Token-Ensemble Text Generation: On Attacking the Automatic AI-Generated
Text Detection
- Title(参考訳): トークンアンサンブルテキスト生成:AIによる自動テキスト検出の攻撃について
- Authors: Fan Huang, Haewoon Kwak, Jisun An
- Abstract要約: 本研究では,現在のAIコンテンツ検出手法の堅牢性に挑戦する新しいトークンアンサンブル生成手法を提案する。
トークンアンサンブルアプローチはAIコンテンツ検出モデルの性能を著しく低下させる。
- 参考スコア(独自算出の注目度): 7.047135911489917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The robustness of AI-content detection models against cultivated attacks
(e.g., paraphrasing or word switching) remains a significant concern. This
study proposes a novel token-ensemble generation strategy to challenge the
robustness of current AI-content detection approaches. We explore the ensemble
attack strategy by completing the prompt with the next token generated from
random candidate LLMs. We find the token-ensemble approach significantly drops
the performance of AI-content detection models (The code and test sets will be
released). Our findings reveal that token-ensemble generation poses a vital
challenge to current detection models and underlines the need for advancing
detection technologies to counter sophisticated adversarial strategies.
- Abstract(参考訳): aiコンテンツ検出モデルの耕作攻撃(パラフレージングやワードスイッチなど)に対する堅牢性は、依然として重要な関心事である。
本研究では,現在のAIコンテンツ検出手法の堅牢性に挑戦するトークンアンサンブル生成手法を提案する。
ランダムな候補LLMから生成された次のトークンでプロンプトを完了することで,アンサンブル攻撃戦略を探索する。
トークンアンサンブルアプローチはAIコンテンツ検出モデルの性能を著しく低下させる(コードとテストセットがリリースされる)。
以上の結果から,トークン・センス・ジェネレーションは現在の検出モデルにとって重要な課題であり,高度な敵戦略に対抗するための検出技術の進歩の必要性を示唆する。
関連論文リスト
- Decoding the AI Pen: Techniques and Challenges in Detecting AI-Generated
Text [5.383228101243665]
大規模言語モデル(LLM)は、人間に似たテキストを生成する素晴らしい能力を示すことによって、自然言語生成(NLG)の分野に革命をもたらした。
しかし、彼らの普及した利用は、思慮深い検査、倫理的精査、責任ある実践を必要とする課題をもたらす。
論文 参考訳(メタデータ) (2024-03-09T01:13:54Z) - A Survey of AI-generated Text Forensic Systems: Detection, Attribution,
and Characterization [13.44566185792894]
AI生成テキスト鑑定は、LLMの誤用に対処する新たな分野である。
本稿では,検出,帰属,特性の3つの主要な柱に着目した詳細な分類法を紹介する。
我々は、AI生成テキスト法医学研究の利用可能なリソースを探究し、AI時代の法医学システムの進化的課題と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-03-02T09:39:13Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - "That Is a Suspicious Reaction!": Interpreting Logits Variation to
Detect NLP Adversarial Attacks [0.2999888908665659]
敵攻撃は、現在の機械学習研究で直面する大きな課題である。
本研究は, 逆文例のモデルに依存しない検出法を提案する。
論文 参考訳(メタデータ) (2022-04-10T09:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。