論文の概要: ExplainableGuard: Interpretable Adversarial Defense for Large Language Models Using Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2511.13771v1
- Date: Sat, 15 Nov 2025 06:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.705099
- Title: ExplainableGuard: Interpretable Adversarial Defense for Large Language Models Using Chain-of-Thought Reasoning
- Title(参考訳): ExplainableGuard:Chain-of-Thought Reasoningを用いた大規模言語モデルの解釈可能な逆防御
- Authors: Shaowei Guan, Yu Zhai, Zhengyu Zhang, Yanze Wang, Hin Chi Kwok,
- Abstract要約: 大規模言語モデル(LLM)は、出力を微妙に操作できる敵攻撃に対して、ますます脆弱である。
本稿では,DeepSeek-Reasonerのチェーン・オブ・シント(CoT)推論機能を活用した,解釈可能な敵防衛フレームワークであるExplainableGuardを紹介する。
GLUE BenchmarkとIMDB Movie Reviewsデータセットの予備的な結果は、防衛効果が有望であることを示している。
- 参考スコア(独自算出の注目度): 11.340599332479705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly vulnerable to adversarial attacks that can subtly manipulate their outputs. While various defense mechanisms have been proposed, many operate as black boxes, lacking transparency in their decision-making. This paper introduces ExplainableGuard, an interpretable adversarial defense framework leveraging the chain-of-thought (CoT) reasoning capabilities of DeepSeek-Reasoner. Our approach not only detects and neutralizes adversarial perturbations in text but also provides step-by-step explanations for each defense action. We demonstrate how tailored CoT prompts guide the LLM to perform a multi-faceted analysis (character, word, structural, and semantic) and generate a purified output along with a human-readable justification. Preliminary results on the GLUE Benchmark and IMDB Movie Reviews dataset show promising defense efficacy. Additionally, a human evaluation study reveals that ExplainableGuard's explanations outperform ablated variants in clarity, specificity, and actionability, with a 72.5% deployability-trust rating, underscoring its potential for more trustworthy LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、出力を微妙に操作できる敵攻撃に対して、ますます脆弱である。
様々な防衛機構が提案されているが、その多くはブラックボックスとして機能し、意思決定における透明性を欠いている。
本稿では,DeepSeek-Reasonerのチェーン・オブ・シント(CoT)推論機能を活用した,解釈可能な敵防衛フレームワークであるExplainableGuardを紹介する。
本手法は,テキスト中の敵の摂動を検出・中和するだけでなく,各防衛行動の段階的説明も提供する。
我々は、CoTがLLMに多面的分析(文字、単語、構造、意味)を行うよう促し、人間の読みやすい正当化とともに浄化された出力を生成する方法を示す。
GLUE BenchmarkとIMDB Movie Reviewsデータセットの予備的な結果は、防衛効果が有望であることを示している。
さらに、人間による評価調査では、ExplainableGuard氏の説明は、72.5%のデプロイ可能性信頼評価で、明確さ、特異性、行動可能性において、より信頼性の高いLLMデプロイメントの可能性を示している。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [29.8288014123234]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。
有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:45:23Z) - When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models [32.03992137755351]
本研究は,大規模言語モデル(LLM)における安全性とプライバシ対策の推進的必要性に光を当てるものである。
本稿では,攻撃効果を定量的に測定するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:26:14Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。