論文の概要: SafeBehavior: Simulating Human-Like Multistage Reasoning to Mitigate Jailbreak Attacks in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.26345v1
- Date: Tue, 30 Sep 2025 14:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.172798
- Title: SafeBehavior: Simulating Human-Like Multistage Reasoning to Mitigate Jailbreak Attacks in Large Language Models
- Title(参考訳): SafeBehavior: 大規模言語モデルにおけるジェイルブレイク攻撃の軽減を目的としたヒューマンライクなマルチステージ推論のシミュレーション
- Authors: Qinjian Zhao, Jiaqi Wang, Zhiqiang Gao, Zhihao Dou, Belal Abuhaija, Kaizhu Huang,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで素晴らしいパフォーマンスを実現している。
しかし、彼らの成長力は、ビルトインの安全メカニズムを回避するジェイルブレイク攻撃のような潜在的なリスクを増幅する。
本研究では,ヒトの適応的多段階推論過程をシミュレートする新しい階層型ジェイルブレイク防御機構であるSafeBehaviorを提案する。
- 参考スコア(独自算出の注目度): 27.607151919652267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved impressive performance across diverse natural language processing tasks, but their growing power also amplifies potential risks such as jailbreak attacks that circumvent built-in safety mechanisms. Existing defenses including input paraphrasing, multi step evaluation, and safety expert models often suffer from high computational costs, limited generalization, or rigid workflows that fail to detect subtle malicious intent embedded in complex contexts. Inspired by cognitive science findings on human decision making, we propose SafeBehavior, a novel hierarchical jailbreak defense mechanism that simulates the adaptive multistage reasoning process of humans. SafeBehavior decomposes safety evaluation into three stages: intention inference to detect obvious input risks, self introspection to assess generated responses and assign confidence based judgments, and self revision to adaptively rewrite uncertain outputs while preserving user intent and enforcing safety constraints. We extensively evaluate SafeBehavior against five representative jailbreak attack types including optimization based, contextual manipulation, and prompt based attacks and compare it with seven state of the art defense baselines. Experimental results show that SafeBehavior significantly improves robustness and adaptability across diverse threat scenarios, offering an efficient and human inspired approach to safeguarding LLMs against jailbreak attempts.
- Abstract(参考訳): 大きな言語モデル(LLM)は、さまざまな自然言語処理タスクで素晴らしいパフォーマンスを達成したが、その成長力は、ビルトインの安全メカニズムを回避するジェイルブレイク攻撃のような潜在的なリスクを増幅する。
入力パラフレーズ、マルチステップ評価、安全専門家モデルを含む既存の防御は、しばしば高い計算コスト、限られた一般化、複雑なコンテキストに埋め込まれた微妙な悪意のある意図を検知できない厳密なワークフローに悩まされる。
人間の意思決定に関する認知科学的な知見に触発され,人間の適応的多段階推論過程をシミュレートする新しい階層型ジェイルブレイク防御機構であるSafeBehaviorを提案する。
SafeBehaviorは、明確な入力リスクを検出する意図推論、生成した応答を評価し、信頼に基づく判断を割り当てる自己検査、ユーザ意図を維持し安全制約を強制しながら不確実な出力を適応的に書き換える自己修正の3段階に分割する。
我々はSafeBehaviorを最適化ベース、文脈操作、プロンプトベース攻撃を含む5つの代表的なジェイルブレイク攻撃タイプに対して広範囲に評価し、7つの最先端防衛ベースラインと比較した。
実験結果から,SafeBehaviorは多様な脅威シナリオに対する堅牢性と適応性を著しく向上し,Jailbreakの試みからLLMを保護するための効率的で人為的なアプローチを提供することがわかった。
関連論文リスト
- ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。