論文の概要: SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment
- arxiv url: http://arxiv.org/abs/2601.16506v1
- Date: Fri, 23 Jan 2026 07:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.582618
- Title: SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment
- Title(参考訳): SafeThinker: 過度なアライメント以上の安全性を強化するリスクについて推論
- Authors: Xianya Fang, Xianying Luo, Yadong Wang, Xiang Chen, Yu Tian, Zequn Sun, Rui Liu, Jun Fang, Naiqiang Tan, Yuanning Cui, Sheng-Jun Huang,
- Abstract要約: 軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
- 参考スコア(独自算出の注目度): 43.86865924673546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the intrinsic risk-awareness of Large Language Models (LLMs), current defenses often result in shallow safety alignment, rendering models vulnerable to disguised attacks (e.g., prefilling) while degrading utility. To bridge this gap, we propose SafeThinker, an adaptive framework that dynamically allocates defensive resources via a lightweight gateway classifier. Based on the gateway's risk assessment, inputs are routed through three distinct mechanisms: (i) a Standardized Refusal Mechanism for explicit threats to maximize efficiency; (ii) a Safety-Aware Twin Expert (SATE) module to intercept deceptive attacks masquerading as benign queries; and (iii) a Distribution-Guided Think (DDGT) component that adaptively intervenes during uncertain generation. Experiments show that SafeThinker significantly lowers attack success rates across diverse jailbreak strategies without compromising utility, demonstrating that coordinating intrinsic judgment throughout the generation process effectively balances robustness and practicality.
- Abstract(参考訳): LLM(Large Language Models)の本質的なリスク認識にもかかわらず、現在の防御は、しばしば浅い安全性のアライメントをもたらし、ユーティリティを劣化させながら、偽装攻撃(例えばプリフィル)に弱いモデルをレンダリングする。
このギャップを埋めるために、軽量なゲートウェイ分類器を介して防衛資源を動的に割り当てる適応型フレームワークSafeThinkerを提案する。
ゲートウェイのリスクアセスメントに基づいて、入力は3つの異なるメカニズムを通してルーティングされる。
i) 効率を最大化するための明示的な脅威に対する標準化された拒絶機構
(ii)偽装攻撃を傍受する安全対応双発専門家(SATE)モジュール
三)不確実な世代において適応的に介入する配電型思考(DDGT)コンポーネント。
実験の結果、SafeThinkerは多種多様なジェイルブレイク戦略における攻撃成功率を大幅に低下させるが、実用性を損なうことなく、生成プロセスを通じて本質的な判断を調整することは、堅牢性と実用性を効果的にバランスさせることが示されている。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - SAID: Empowering Large Language Models with Self-Activating Internal Defense [23.654016424365906]
我々は,新たな非訓練型防衛パラダイム,自走型内国防衛(SAID)を導入する。
SAIDは、防衛タスクを外部修正から内部機能アクティベーションにリフレームする。
それは、有害な出力を減らすために最先端の防御を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-23T02:07:54Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - Thought Purity: A Defense Framework For Chain-of-Thought Attack [16.56580534764132]
本稿では,悪意のあるコンテンツに対する抵抗性を高めつつ,操作効率を保ちつつ,その耐性を高めるフレームワークであるThought Purityを提案する。
本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
論文 参考訳(メタデータ) (2025-07-16T15:09:13Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。