論文の概要: GradEscape: A Gradient-Based Evader Against AI-Generated Text Detectors
- arxiv url: http://arxiv.org/abs/2506.08188v1
- Date: Mon, 09 Jun 2025 19:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.656434
- Title: GradEscape: A Gradient-Based Evader Against AI-Generated Text Detectors
- Title(参考訳): GradEscape:AI生成テキスト検出器に対するグラディエントベースのエバダ
- Authors: Wenlong Meng, Shuguo Fan, Chengkun Wei, Min Chen, Yuwei Li, Yuanchao Zhang, Zhikun Zhang, Wenzhi Chen,
- Abstract要約: 我々は、AIGT(AI- generated text)検出器を攻撃するために設計された最初の勾配ベースの回避器であるGradEscapeを紹介する。
GradEscapeは、検出器入力のための重み付き埋め込みを構築することで、テキストの離散性に起因する微分不可能な計算問題を克服する。
次に、被害者検知器からのフィードバックを使って、イーバーモデルパラメータを更新し、最小限のテキスト修正で高い攻撃成功を達成する。
- 参考スコア(独自算出の注目度): 9.194930220793573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce GradEscape, the first gradient-based evader designed to attack AI-generated text (AIGT) detectors. GradEscape overcomes the undifferentiable computation problem, caused by the discrete nature of text, by introducing a novel approach to construct weighted embeddings for the detector input. It then updates the evader model parameters using feedback from victim detectors, achieving high attack success with minimal text modification. To address the issue of tokenizer mismatch between the evader and the detector, we introduce a warm-started evader method, enabling GradEscape to adapt to detectors across any language model architecture. Moreover, we employ novel tokenizer inference and model extraction techniques, facilitating effective evasion even in query-only access. We evaluate GradEscape on four datasets and three widely-used language models, benchmarking it against four state-of-the-art AIGT evaders. Experimental results demonstrate that GradEscape outperforms existing evaders in various scenarios, including with an 11B paraphrase model, while utilizing only 139M parameters. We have successfully applied GradEscape to two real-world commercial AIGT detectors. Our analysis reveals that the primary vulnerability stems from disparity in text expression styles within the training data. We also propose a potential defense strategy to mitigate the threat of AIGT evaders. We open-source our GradEscape for developing more robust AIGT detectors.
- Abstract(参考訳): 本稿では,AIGT(AI- generated text)検出器を攻撃するために設計された,最初の勾配型回避器であるGradEscapeを紹介する。
GradEscapeは、テキストの離散性に起因する微分不可能な計算問題を克服し、検出器入力のための重み付き埋め込みを構築する新しいアプローチを導入する。
次に、被害者検知器からのフィードバックを使って、イーバーモデルパラメータを更新し、最小限のテキスト修正で高い攻撃成功を達成する。
検出器と検出器のトークン化ミスマッチの問題に対処するため,GradEscapeを言語モデルアーキテクチャ全体にわたる検出器に適応させる温かい開始エバダ手法を提案する。
さらに,新しいトークン化手法とモデル抽出手法を採用し,クエリのみのアクセスにおいても効果的な回避を容易にする。
4つのデータセットと3つの広く使われている言語モデル上でGradEscapeを評価し、4つの最先端AIGTエバーダに対してベンチマークを行った。
実験の結果,GradEscapeは1億1900万のパラメータしか利用せず,11Bパラフレーズモデルなど,さまざまなシナリオにおいて既存のエバダよりも優れていた。
2つの実世界の商用AIGT検出器にGradEscapeを適用した。
分析の結果,主な脆弱性はトレーニングデータ内のテキスト表現スタイルの相違によるものであることが判明した。
また,AIGT回避者の脅威を軽減するための防衛戦略を提案する。
より堅牢なAIGT検出器を開発するため、GradEscapeをオープンソースにしています。
関連論文リスト
- Fooling the Watchers: Breaking AIGC Detectors via Semantic Prompt Attacks [0.0]
テキスト・トゥ・イメージ(T2I)モデルの台頭は、フォトリアリスティックな人間の肖像画の合成を可能にした。
本研究では,自動対向プロンプト生成フレームワークを提案する。
提案手法は,オープンソースのAIGC検出器と商用AIGC検出器の両方を一貫して回避する,多種多様な制御可能なプロンプトを生成する。
論文 参考訳(メタデータ) (2025-05-29T07:31:17Z) - AuthorMist: Evading AI Text Detectors with Reinforcement Learning [4.806579822134391]
AuthorMistは、AI生成したテキストを人間ライクな文章に変換する、新しい強化学習ベースのシステムだ。
AuthorMistは,本来の意味を保ちながら,AI生成テキストの検出性を効果的に低減することを示す。
論文 参考訳(メタデータ) (2025-03-10T12:41:05Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - ToBlend: Token-Level Blending With an Ensemble of LLMs to Attack AI-Generated Text Detection [6.27025292177391]
ToBlendはトークンレベルのアンサンブルテキスト生成手法であり、現在のAIコンテンツ検出アプローチの堅牢性に挑戦する。
ToBlendは、主要なAIコンテンツ検出手法の性能を著しく低下させる。
論文 参考訳(メタデータ) (2024-02-17T02:25:57Z) - Game of Trojans: Adaptive Adversaries Against Output-based
Trojaned-Model Detectors [11.825974900783844]
我々は、Trojaned DNNを再訓練し、SOTA出力に基づくTrojanedモデル検出器を認識した適応逆解析を行う。
このような敵は,(1) トリガー埋め込みとクリーンなサンプルの両方において高い精度を確保でき,(2) バイパス検出が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-12T20:14:46Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。