論文の概要: Refusal Steering: Fine-grained Control over LLM Refusal Behaviour for Sensitive Topics
- arxiv url: http://arxiv.org/abs/2512.16602v1
- Date: Thu, 18 Dec 2025 14:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.103098
- Title: Refusal Steering: Fine-grained Control over LLM Refusal Behaviour for Sensitive Topics
- Title(参考訳): 断熱ステアリング:感性トピックに対するLLM断熱挙動のきめ細かい制御
- Authors: Iker García-Ferrero, David Montero, Roman Orus,
- Abstract要約: 本稿では,大言語モデルの拒否動作を詳細に制御する推論時間手法であるRefusal Steeringを紹介する。
有害なコンテンツの安全性を保ちつつ、政治的拒絶行為を除去できることを示す。
- 参考スコア(独自算出の注目度): 2.4839105527363574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Refusal Steering, an inference-time method to exercise fine-grained control over Large Language Models refusal behaviour on politically sensitive topics without retraining. We replace fragile pattern-based refusal detection with an LLM-as-a-judge that assigns refusal confidence scores and we propose a ridge-regularized variant to compute steering vectors that better isolate the refusal--compliance direction. On Qwen3-Next-80B-A3B-Thinking, our method removes the refusal behaviour of the model around politically sensitive topics while maintaining safety on JailbreakBench and near-baseline performance on general benchmarks. The approach generalizes across 4B and 80B models and can also induce targeted refusals when desired. We analize the steering vectors and show that refusal signals concentrate in deeper layers of the transformer and are distributed across many dimensions. Together, these results demonstrate that activation steering can remove political refusal behaviour while retaining safety alignment for harmful content, offering a practical path to controllable, transparent moderation at inference time.
- Abstract(参考訳): 本稿では,大規模な言語モデルに対する微粒な制御を行うための推論時間的手法であるRefusal Steeringを紹介した。
本稿では,リファレンススコアを割り当てるLDM-as-a-judgeを用いて,脆弱なパターンに基づくリファレンス検出を置き換えるとともに,リファレンス方向をより分離したステアリングベクトルを演算するためのリッジ正規化変種を提案する。
Qwen3-Next-80B-A3B-Thinkingでは、JailbreakBenchの安全性と一般的なベンチマークでのほぼベースライン性能を維持しながら、政治的にセンシティブなトピックに関するモデルの拒絶動作を除去する。
このアプローチは4Bモデルと80Bモデルにまたがって一般化されており、必要に応じてターゲットの拒絶を誘発することもできる。
我々は、操舵ベクトルを解析し、拒絶信号が変圧器の深い層に集中し、多くの次元に分散していることを示す。
これらの結果から, アクティベーションステアリングは有害なコンテンツの安全性を維持しつつ, 政治的拒絶行動の排除を図り, 推論時に制御可能な透明なモデレーションへの実践的な経路を提供することができた。
関連論文リスト
- Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment [7.145846466297704]
大規模言語モデルには、悪意のある要求を拒否する能力が備わっている。
以前の研究は、この拒絶機構を活性化空間の1つの線形方向としてモデル化していた。
我々は,臨界層における安全アライメントを正確に中和する新しいホワイトボックスフレームワークDBDIを導入する。
論文 参考訳(メタデータ) (2025-11-10T08:52:34Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - COSMIC: Generalized Refusal Direction Identification in LLM Activations [43.30637889861949]
本稿では,方向選択のための自動フレームワークであるbfCOSMIC(Cosine similarity Metrics for Inversion of Concepts)を紹介する。
モデル出力から完全に独立しているコサイン類似性を使用して、実行可能なステアリング方向とターゲット層を特定する。
敵対的な設定や弱い整列モデルにおける拒絶方向を確実に識別し、偽の拒絶を最小限に抑えつつ、より安全な行動に向けてそのようなモデルを操ることが可能である。
論文 参考訳(メタデータ) (2025-05-30T04:54:18Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。