論文の概要: Reflect-Guard: Enhancing LLM Safeguards against Adversarial Prompts via Logical Self-Reflection
- arxiv url: http://arxiv.org/abs/2605.24834v1
- Date: Sun, 24 May 2026 02:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.468888
- Title: Reflect-Guard: Enhancing LLM Safeguards against Adversarial Prompts via Logical Self-Reflection
- Title(参考訳): Reflect-Guard: 論理的自己回帰による敵対的プロンプトに対するLDM保護の強化
- Authors: Lixing Lin, Juli You, Yue Li, Luyun Lin, Yiqing Wang, Zhen Zhang, Moxuan Zheng,
- Abstract要約: リフレクション・ガード(Reflector-Guard)は,LLMに基づく安全分類器をチェーン・オブ・フォア・セルフ・リフレクション機能で拡張する手法である。
提案手法は,GPT-4o-miniから構造化アノテーションへの解析的推論を蒸留し,QLoRAを介してLlama-Guard-3-8Bを訓練し,論理的自己回帰を生成する。
たった1000のトレーニング例とわずか0.5%のモデルパラメータを使って、Reflect-Guardは2つの挑戦的なベンチマークで大幅に改善した。
- 参考スコア(独自算出の注目度): 5.902327401962825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) safety classifiers such as Llama Guard are effective at detecting overtly harmful prompts but remain vulnerable to adversarial jailbreak attacks that disguise malicious intent through role-play scenarios, fictional framing, and indirect requests. We present Reflect-Guard, a method that augments LLM-based safety classifiers with chain-of-thought self-reflection capabilities through parameter-efficient fine-tuning. Our approach distills analytical reasoning from GPT-4o-mini into structured reflection annotations, then trains Llama-Guard-3-8B via QLoRA to generate logical self-reflections before issuing safety verdicts. Using only 1000 training examples and updating just 0.5% of model parameters (~42M), Reflect-Guard achieves substantial improvements on two challenging benchmarks. On WildGuardTest, F1 score improves from 0.770 to 0.842 (+7.2 pp), with recall on adversarial prompts increasing from 0.513 to 0.921 (+40.8 pp). On JailbreakBench, the attack success rate drops from 10.3% to 1.8%, representing an 82.5% relative reduction. These gains are especially pronounced on adversarial inputs, where the explicit reasoning step enables the model to see through obfuscation techniques that defeat standard pattern-matching approaches. Our results demonstrate that teaching safety classifiers to reason about adversarial intent, rather than simply classify surface patterns, is a promising direction for robust LLM safety.
- Abstract(参考訳): Llama Guardのような大規模言語モデル(LLM)の安全分類器は、過度に有害なプロンプトを検出するのに有効であるが、ロールプレイシナリオ、架空のフレーミング、間接的な要求を通じて悪意のある意図を偽装する敵対的ジェイルブレイク攻撃に弱いままである。
リフレクションガード(Reflect-Guard)は、パラメータ効率の細かい調整により、LLMベースの安全分類器をチェーン・オブ・フォア・セルフ・リフレクション能力で強化する手法である。
提案手法は,GPT-4o-miniから構造的リフレクションアノテーションへの解析的推論を蒸留し,QLoRAを介してLlama-Guard-3-8Bを訓練し,安全性判定を行う前に論理的自己回帰を生成する。
たった1000のトレーニング例とわずか0.5%のモデルパラメータ(~42M)を使って、Reflect-Guardは2つの挑戦的なベンチマークで大幅に改善した。
WildGuardTestでは、F1スコアは 0.770 から 0.842 (+7.2 pp) に改善され、相手のプロンプトを 0.513 から 0.921 (+40.8 pp) にリコールする。
JailbreakBenchでは、攻撃の成功率は10.3%から1.8%に減少し、82.5%の相対的な減少を示している。
これらの利得は、明らかに推論ステップによって標準パターンマッチングアプローチを破る難読化技術を通してモデルを見ることができる、逆入力で特に顕著に発音される。
以上の結果から, 表面パターンを単純に分類するのではなく, 対向意図を推論するための安全分類器の指導が, 堅牢なLCM安全性に有望な方向であることが示唆された。
関連論文リスト
- Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization [51.11398557420066]
我々は、推論時ポリシー最適化としてジェイルブレイクを改定するフレームワークであるMetisを紹介する。
メティスは比較手法の中でも89.2%で最強のアタック成功率(ASR)を達成している。
冗長な探索を最適化に置き換えることで、Metisはトークンコストを平均8.2倍、最大11.4倍に削減する。
論文 参考訳(メタデータ) (2026-05-11T06:45:00Z) - Think Twice, Generate Once: Safeguarding by Progressive Self-Reflection [18.467741067831877]
本稿では,大規模言語モデルを自己監視に活用し,その出力を動的に補正する新しい推論時間手法であるプログレッシブ・セルフリフレクションを紹介する。
Llama-3.1-8B-Instructに提案手法を適用した結果,攻撃成功率は77.5%から5.9%に低下した。
提案手法はテスト時間スケーリングの手法として機能し,追加の自己回帰ラウンドによって推論オーバーヘッドのコストで安全性が向上する。
論文 参考訳(メタデータ) (2025-09-29T12:54:28Z) - Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [6.462219916993885]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
我々は,ジェイルブレイク攻撃のための新しい手法を紹介し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。
わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。
勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文 参考訳(メタデータ) (2024-12-18T10:49:41Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。