論文の概要: Steering Safely or Off a Cliff? Rethinking Specificity and Robustness in Inference-Time Interventions
- arxiv url: http://arxiv.org/abs/2602.06256v1
- Date: Thu, 05 Feb 2026 23:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.152727
- Title: Steering Safely or Off a Cliff? Rethinking Specificity and Robustness in Inference-Time Interventions
- Title(参考訳): 安全かオフか?推論時間の介入における特異性とロバスト性を再考する
- Authors: Navita Goyal, Hal Daumé,
- Abstract要約: ステアリングは高い有効性を実現し,全般的および制御的特異性を維持するが,ロバスト性特異性を維持することは一貫して失敗することを示す。
本研究は, モデルステアリングにおける特異性の最初の体系的評価を行い, 標準有効性および特異性チェックが不十分であることを示す。
- 参考スコア(独自算出の注目度): 2.977664945581083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model steering, which involves intervening on hidden representations at inference time, has emerged as a lightweight alternative to finetuning for precisely controlling large language models. While steering efficacy has been widely studied, evaluations of whether interventions alter only the intended property remain limited, especially with respect to unintended changes in behaviors related to the target property. We call this notion specificity. We propose a framework that distinguishes three dimensions of specificity: general (preserving fluency and unrelated abilities), control (preserving related control properties), and robustness (preserving control properties under distribution shifts). We study two safety-critical use cases: steering models to reduce overrefusal and faithfulness hallucinations, and show that while steering achieves high efficacy and largely maintains general and control specificity, it consistently fails to preserve robustness specificity. In the case of overrefusal steering, for example, all steering methods reduce overrefusal without harming general abilities and refusal on harmful queries; however, they substantially increase vulnerability to jailbreaks. Our work provides the first systematic evaluation of specificity in model steering, showing that standard efficacy and specificity checks are insufficient, because without robustness evaluation, steering methods may appear reliable even when they compromise model safety.
- Abstract(参考訳): モデルステアリング(モデルステアリング)は、推論時に隠れた表現を介入するものであり、大きな言語モデルを正確に制御するための微調整の軽量な代替品として登場した。
ステアリングの有効性は広く研究されているが、特に対象物に関する意図しない行動の変化に関して、介入が目的物のみを変えるかどうかの評価は限定的のままである。
私たちはこの概念を特異性と呼んでいる。
本稿では, 一般性(流感と非関連能力の保存), 制御性(関連する制御特性の保存), 頑健性(分布シフト下での制御特性の保存)の3次元を識別する枠組みを提案する。
過度な拒絶と忠実さの幻覚を減らすためのステアリングモデルについて検討し、ステアリングは高い有効性を実現し、汎用性や制御性を維持しつつも、常に頑健さを保たないことを示す。
オーバーリフレア・ステアリングの場合、例えば全てのステアリング手法は、一般的な能力を損なうことなくオーバーリフレアを減らし、有害なクエリーを拒絶するが、それらはジェイルブレイクに対する脆弱性を大幅に増加させる。
本研究は,モデルステアリングにおいて,モデル安全性を損なう場合においても,ロバスト性評価がなければ,ステアリング手法が信頼性の高いように見えるため,標準的な有効性や特異性チェックが不十分であることを示す。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。