論文の概要: SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment
- arxiv url: http://arxiv.org/abs/2601.16506v1
- Date: Fri, 23 Jan 2026 07:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.582618
- Title: SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment
- Title(参考訳): SafeThinker: 過度なアライメント以上の安全性を強化するリスクについて推論
- Authors: Xianya Fang, Xianying Luo, Yadong Wang, Xiang Chen, Yu Tian, Zequn Sun, Rui Liu, Jun Fang, Naiqiang Tan, Yuanning Cui, Sheng-Jun Huang,
- Abstract要約: 軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
- 参考スコア(独自算出の注目度): 43.86865924673546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the intrinsic risk-awareness of Large Language Models (LLMs), current defenses often result in shallow safety alignment, rendering models vulnerable to disguised attacks (e.g., prefilling) while degrading utility. To bridge this gap, we propose SafeThinker, an adaptive framework that dynamically allocates defensive resources via a lightweight gateway classifier. Based on the gateway's risk assessment, inputs are routed through three distinct mechanisms: (i) a Standardized Refusal Mechanism for explicit threats to maximize efficiency; (ii) a Safety-Aware Twin Expert (SATE) module to intercept deceptive attacks masquerading as benign queries; and (iii) a Distribution-Guided Think (DDGT) component that adaptively intervenes during uncertain generation. Experiments show that SafeThinker significantly lowers attack success rates across diverse jailbreak strategies without compromising utility, demonstrating that coordinating intrinsic judgment throughout the generation process effectively balances robustness and practicality.
- Abstract(参考訳): LLM(Large Language Models)の本質的なリスク認識にもかかわらず、現在の防御は、しばしば浅い安全性のアライメントをもたらし、ユーティリティを劣化させながら、偽装攻撃(例えばプリフィル)に弱いモデルをレンダリングする。
このギャップを埋めるために、軽量なゲートウェイ分類器を介して防衛資源を動的に割り当てる適応型フレームワークSafeThinkerを提案する。
ゲートウェイのリスクアセスメントに基づいて、入力は3つの異なるメカニズムを通してルーティングされる。
i) 効率を最大化するための明示的な脅威に対する標準化された拒絶機構
(ii)偽装攻撃を傍受する安全対応双発専門家(SATE)モジュール
三)不確実な世代において適応的に介入する配電型思考(DDGT)コンポーネント。
実験の結果、SafeThinkerは多種多様なジェイルブレイク戦略における攻撃成功率を大幅に低下させるが、実用性を損なうことなく、生成プロセスを通じて本質的な判断を調整することは、堅牢性と実用性を効果的にバランスさせることが示されている。
関連論文リスト
- SAID: Empowering Large Language Models with Self-Activating Internal Defense [23.654016424365906]
我々は,新たな非訓練型防衛パラダイム,自走型内国防衛(SAID)を導入する。
SAIDは、防衛タスクを外部修正から内部機能アクティベーションにリフレームする。
それは、有害な出力を減らすために最先端の防御を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-23T02:07:54Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Thought Purity: A Defense Framework For Chain-of-Thought Attack [16.56580534764132]
本稿では,悪意のあるコンテンツに対する抵抗性を高めつつ,操作効率を保ちつつ,その耐性を高めるフレームワークであるThought Purityを提案する。
本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
論文 参考訳(メタデータ) (2025-07-16T15:09:13Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。