論文の概要: Trust Me, I Can Handle It: Self-Generated Adversarial Scenario Extrapolation for Robust Language Models
- arxiv url: http://arxiv.org/abs/2505.17089v1
- Date: Tue, 20 May 2025 21:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.548795
- Title: Trust Me, I Can Handle It: Self-Generated Adversarial Scenario Extrapolation for Robust Language Models
- Title(参考訳): Trust Me, I can Handle it: Self-Generated Adversarial Scenario Extrapolation for Robust Language Models
- Authors: Md Rafi Ur Rashid, Vishnu Asutosh Dasu, Ye Wang, Gang Tan, Shagufta Mehnaz,
- Abstract要約: 大きな言語モデル(LLMs)は印象的な能力を示すが、安全リスクが増大する傾向にある。
既存の防衛は、しばしば単一の脅威タイプや、厳格な徹底的な拒絶にのみ対処する。
本稿では,Chain-of-Thought推論を利用した新しい推論時間フレームワークであるAdrial Scenario Extrapolation(ASE)を紹介する。
- 参考スコア(独自算出の注目度): 12.864404778567154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit impressive capabilities, but remain susceptible to a growing spectrum of safety risks, including jailbreaks, toxic content, hallucinations, and bias. Existing defenses often address only a single threat type or resort to rigid outright rejection, sacrificing user experience and failing to generalize across diverse and novel attacks. This paper introduces Adversarial Scenario Extrapolation (ASE), a novel inference-time computation framework that leverages Chain-of-Thought (CoT) reasoning to simultaneously enhance LLM robustness and seamlessness. ASE guides the LLM through a self-generative process of contemplating potential adversarial scenarios and formulating defensive strategies before generating a response to the user query. Comprehensive evaluation on four adversarial benchmarks with four latest LLMs shows that ASE achieves near-zero jailbreak attack success rates and minimal toxicity, while slashing outright rejections to <4%. ASE outperforms six state-of-the-art defenses in robustness-seamlessness trade-offs, with 92-99% accuracy on adversarial Q&A and 4-10x lower bias scores. By transforming adversarial perception into an intrinsic cognitive process, ASE sets a new paradigm for secure and natural human-AI interaction.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を示すが、ジェイルブレイク、有害な内容、幻覚、偏見など、安全リスクの増大のスペクトルに影響を受けやすい。
既存の防衛は、単一の脅威タイプや、厳格な徹底的な拒絶、ユーザー体験を犠牲にし、多種多様な新しい攻撃を一般化しない手段に対処する。
本稿では,LLMの堅牢性とシームレス性を同時に向上するために,Chain-of-Thought(CoT)推論を利用した新しい推論時間計算フレームワークであるASEを紹介する。
ASEは、ユーザクエリに対する応答を生成する前に、潜在的な敵シナリオを考え、防御戦略を定式化する自己生成プロセスを通じてLCMをガイドする。
最新の4つのLCMによる4つの対立ベンチマークの総合的な評価は、ASEがほぼゼロに近いジェイルブレイク攻撃の成功率と最小限の毒性を達成し、かつ、完全な拒絶率を4%に下げていることを示している。
ASEは、敵Q&Aと4-10倍の低いバイアススコアで92-99%の精度で、ロバストネスとシームレスのトレードオフで最先端の6つの防御を上回ります。
敵対的認識を本質的な認知プロセスに変換することにより、ASEは、安全で自然な人間とAIの相互作用のための新しいパラダイムを定めている。
関連論文リスト
- Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Stepwise Reasoning Error Disruption Attack of LLMs [34.30455975290165]
既存の大規模言語モデル(LLM)に対する攻撃は、特定の設定や非受容性の欠如によって制限される。
本稿では,事前の推論ステップに誤りを微妙に注入し,そのモデルに誤りを生じさせるステップワイズ rEasoning Error Disruption (SEED) 攻撃を提案する。
論文 参考訳(メタデータ) (2024-12-16T16:20:41Z) - Membership Inference Attacks Against In-Context Learning [26.57639819629732]
In-Context Learning (ICL) に適した最初のメンバシップ推論攻撃を提案する。
様々な制約シナリオに合わせた4つの攻撃戦略を提案する。
本稿では,データ,命令,出力を対象とする3つの潜在的防御について検討する。
論文 参考訳(メタデータ) (2024-09-02T17:23:23Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。