論文の概要: Self-Disguise Attack: Induce the LLM to disguise itself for AIGT detection evasion
- arxiv url: http://arxiv.org/abs/2508.15848v1
- Date: Wed, 20 Aug 2025 04:17:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.116964
- Title: Self-Disguise Attack: Induce the LLM to disguise itself for AIGT detection evasion
- Title(参考訳): 自問自答攻撃:AIGT検出回避の偽装をLLMに誘導する
- Authors: Yinghan Zhou, Juan Wen, Wanli Peng, Zhengxian Wu, Ziwei Zhang, Yiming Xue,
- Abstract要約: SDA(Self-Disguise Attack)は、大規模言語モデルがその出力を積極的に偽装できる新しいアプローチである。
SDA は,3 種類の LLM が生成するテキスト間での各種 AIGT 検出器の平均検出精度を効果的に低減することを示す。
- 参考スコア(独自算出の注目度): 16.94434185181644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated text (AIGT) detection evasion aims to reduce the detection probability of AIGT, helping to identify weaknesses in detectors and enhance their effectiveness and reliability in practical applications. Although existing evasion methods perform well, they suffer from high computational costs and text quality degradation. To address these challenges, we propose Self-Disguise Attack (SDA), a novel approach that enables Large Language Models (LLM) to actively disguise its output, reducing the likelihood of detection by classifiers. The SDA comprises two main components: the adversarial feature extractor and the retrieval-based context examples optimizer. The former generates disguise features that enable LLMs to understand how to produce more human-like text. The latter retrieves the most relevant examples from an external knowledge base as in-context examples, further enhancing the self-disguise ability of LLMs and mitigating the impact of the disguise process on the diversity of the generated text. The SDA directly employs prompts containing disguise features and optimized context examples to guide the LLM in generating detection-resistant text, thereby reducing resource consumption. Experimental results demonstrate that the SDA effectively reduces the average detection accuracy of various AIGT detectors across texts generated by three different LLMs, while maintaining the quality of AIGT.
- Abstract(参考訳): AI生成テキスト(AIGT)検出回避は、AIGTの検出確率を低減し、検出器の弱点を特定し、実用的な応用におけるその有効性と信頼性を高めることを目的としている。
既存の回避手法はよく機能するが、高い計算コストとテキスト品質の劣化に悩まされる。
これらの課題に対処するために,Large Language Models (LLM) が積極的に出力を偽装し,分類器による検出の可能性を低減する新しい手法であるSelf-Disguise Attack (SDA)を提案する。
SDAは、敵対的特徴抽出器と、検索に基づく文脈例最適化器の2つの主成分からなる。
前者は、LLMがより人間的なテキストを生成する方法を理解することができる変装機能を生成する。
後者は、文脈内例として、外部知識ベースから最も関連性の高い例を検索し、LLMの自己表現能力をさらに強化し、生成したテキストの多様性に対する疑似プロセスの影響を緩和する。
SDAは、疑似特徴と最適化されたコンテキスト例を含むプロンプトを直接使用して、検出耐性テキストの生成においてLLMを誘導し、リソース消費を減少させる。
実験結果から,SDAは,AIGTの品質を維持しつつ,3種類のLLMによって生成されたテキスト間での各種AIGT検出器の平均検出精度を効果的に低減することを示した。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Understanding the Effects of RLHF on the Quality and Detectability of LLM-Generated Texts [7.242609314791262]
人間のフィードバックからの強化学習によるさらなる編集が、生成したテキストの品質に与える影響について検討する。
RLHFはより検出しやすく、長く、繰り返し出力する。
訓練ベースの検出器は短いテキストやコードを含むテキストに弱いが、ゼロショット検出器はより堅牢である。
論文 参考訳(メタデータ) (2025-03-23T07:03:10Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。