論文の概要: From Refusal Tokens to Refusal Control: Discovering and Steering Category-Specific Refusal Directions
- arxiv url: http://arxiv.org/abs/2603.13359v1
- Date: Mon, 09 Mar 2026 06:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.121121
- Title: From Refusal Tokens to Refusal Control: Discovering and Steering Category-Specific Refusal Directions
- Title(参考訳): 拒絶トークンから拒絶制御へ:特定拒絶方向の発見と操舵
- Authors: Rishab Alagharu, Ishneet Sukhvinder Singh, Shaibi Shamsudeen, Zhen Wu, Ashwinee Panda,
- Abstract要約: 我々はLlama 3 8Bの分類的拒絶トークンを微調整したバージョンを活用し、微細な拒絶動作に対する推論時間制御を可能にする。
提案手法は,推論中の拒絶の方向か方向かを決定する軽量プローブを用いて分類的ステアリングベクターを構築した。
ベンチマーク全体において、カテゴリー的ステアリングベクトルとローランクの組み合わせは、良性プロンプトに対する過剰な拒絶を一貫して減少させ、有害なプロンプトに対する拒絶率を増大させる。
- 参考スコア(独自算出の注目度): 7.599054770990825
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models are commonly fine-tuned for safety alignment to refuse harmful prompts. One approach fine-tunes them to generate categorical refusal tokens that distinguish different refusal types before responding. In this work, we leverage a version of Llama 3 8B fine-tuned with these categorical refusal tokens to enable inference-time control over fine-grained refusal behavior, improving both safety and reliability. We show that refusal token fine-tuning induces separable, category-aligned directions in the residual stream, which we extract and use to construct categorical steering vectors with a lightweight probe that determines whether to steer toward or away from refusal during inference. In addition, we introduce a learned low-rank combination that mixes these category directions in a whitened, orthonormal steering basis, resulting in a single controllable intervention under activation-space anisotropy, and show that this intervention is transferable across same-architecture model variants without additional training. Across benchmarks, both categorical steering vectors and the low-rank combination consistently reduce over-refusals on benign prompts while increasing refusal rates on harmful prompts, highlighting their utility for multi-category refusal control.
- Abstract(参考訳): 言語モデルは通常、有害なプロンプトを避けるために安全アライメントのために微調整されている。
あるアプローチでは、応答前に異なる拒絶型を区別する分類的拒絶トークンを生成するように微調整する。
本研究では,Llama 3 8Bの分類的拒絶トークンを微調整したバージョンを利用して,微細な拒絶動作に対する推論時間制御を実現し,安全性と信頼性を両立させる。
本稿では,リファレンストークンの微調整により,残流の分離可能なカテゴリ整列方向が導出されることを示し,これを用いて,リファレンス中のリファレンスへの方向と方向を判断する軽量プローブを用いてカテゴリー整列ベクトルを構築する。
さらに,これらのカテゴリの方向を白色で正則なステアリングベースで混合することで,活性化空間異方性の下での単一制御可能な介入が実現し,この介入が付加的なトレーニングを伴わずに同一アーキテクチャモデル変異体間で伝達可能であることを示す。
ベンチマーク全体では、カテゴリー的ステアリングベクターとローランクの組み合わせは、良性のプロンプトに対する過剰な拒絶を一貫して減少させ、有害なプロンプトに対する拒絶率を増大させ、マルチカテゴリの拒絶制御に対する彼らの有用性を強調している。
関連論文リスト
- Provably Reliable Classifier Guidance via Cross-Entropy Control [4.298880233819988]
拡散モデルの各ステップにおけるクロスエントロピー損失は、対応する誘導誤差を制御するのに十分であることを示す。
その結果,サンプリング誤差ベクトル誘導拡散モデル上界が得られ,逆対数ソボレフ型不等式に類似していることがわかった。
論文 参考訳(メタデータ) (2026-01-29T02:59:04Z) - Refusal Steering: Fine-grained Control over LLM Refusal Behaviour for Sensitive Topics [2.4839105527363574]
本稿では,大言語モデルの拒否動作を詳細に制御する推論時間手法であるRefusal Steeringを紹介する。
有害なコンテンツの安全性を保ちつつ、政治的拒絶行為を除去できることを示す。
論文 参考訳(メタデータ) (2025-12-18T14:43:04Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning [19.823784666021822]
ACTORは、さまざまなクエリから内部アクティベーションパターンを活用することで、過剰な拒絶を最小化する。
ACTORは、リファインをトリガーするアクティベーションコンポーネントを正確に識別し、調整し、リファイン機構のより強力な制御を提供する。
論文 参考訳(メタデータ) (2025-07-06T05:47:04Z) - COSMIC: Generalized Refusal Direction Identification in LLM Activations [43.30637889861949]
本稿では,方向選択のための自動フレームワークであるbfCOSMIC(Cosine similarity Metrics for Inversion of Concepts)を紹介する。
モデル出力から完全に独立しているコサイン類似性を使用して、実行可能なステアリング方向とターゲット層を特定する。
敵対的な設定や弱い整列モデルにおける拒絶方向を確実に識別し、偽の拒絶を最小限に抑えつつ、より安全な行動に向けてそのようなモデルを操ることが可能である。
論文 参考訳(メタデータ) (2025-05-30T04:54:18Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models [68.15108215197279]
安全で信頼性の高い言語モデルを構築する上で重要な要素は、モデルが特定の質問に答えることを適切に拒否することである。
本稿では,学習中のモデルの応答に先立って,各拒絶カテゴリに対する1つのそのようなトークン,あるいは1つの拒絶トークンを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:40:44Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。