Fugu-MT 論文翻訳(概要): Steering Safely or Off a Cliff? Rethinking Specificity and Robustness in Inference-Time Interventions

論文の概要: Steering Safely or Off a Cliff? Rethinking Specificity and Robustness in Inference-Time Interventions

arxiv url: http://arxiv.org/abs/2602.06256v1
Date: Thu, 05 Feb 2026 23:14:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.152727
Title: Steering Safely or Off a Cliff? Rethinking Specificity and Robustness in Inference-Time Interventions
Title（参考訳）: 安全かオフか?推論時間の介入における特異性とロバスト性を再考する
Authors: Navita Goyal, Hal Daumé,
Abstract要約: ステアリングは高い有効性を実現し,全般的および制御的特異性を維持するが,ロバスト性特異性を維持することは一貫して失敗することを示す。本研究は, モデルステアリングにおける特異性の最初の体系的評価を行い, 標準有効性および特異性チェックが不十分であることを示す。
参考スコア（独自算出の注目度）: 2.977664945581083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model steering, which involves intervening on hidden representations at inference time, has emerged as a lightweight alternative to finetuning for precisely controlling large language models. While steering efficacy has been widely studied, evaluations of whether interventions alter only the intended property remain limited, especially with respect to unintended changes in behaviors related to the target property. We call this notion specificity. We propose a framework that distinguishes three dimensions of specificity: general (preserving fluency and unrelated abilities), control (preserving related control properties), and robustness (preserving control properties under distribution shifts). We study two safety-critical use cases: steering models to reduce overrefusal and faithfulness hallucinations, and show that while steering achieves high efficacy and largely maintains general and control specificity, it consistently fails to preserve robustness specificity. In the case of overrefusal steering, for example, all steering methods reduce overrefusal without harming general abilities and refusal on harmful queries; however, they substantially increase vulnerability to jailbreaks. Our work provides the first systematic evaluation of specificity in model steering, showing that standard efficacy and specificity checks are insufficient, because without robustness evaluation, steering methods may appear reliable even when they compromise model safety.
Abstract（参考訳）: モデルステアリング(モデルステアリング)は、推論時に隠れた表現を介入するものであり、大きな言語モデルを正確に制御するための微調整の軽量な代替品として登場した。ステアリングの有効性は広く研究されているが、特に対象物に関する意図しない行動の変化に関して、介入が目的物のみを変えるかどうかの評価は限定的のままである。私たちはこの概念を特異性と呼んでいる。本稿では, 一般性(流感と非関連能力の保存), 制御性(関連する制御特性の保存), 頑健性(分布シフト下での制御特性の保存)の3次元を識別する枠組みを提案する。過度な拒絶と忠実さの幻覚を減らすためのステアリングモデルについて検討し、ステアリングは高い有効性を実現し、汎用性や制御性を維持しつつも、常に頑健さを保たないことを示す。オーバーリフレア・ステアリングの場合、例えば全てのステアリング手法は、一般的な能力を損なうことなくオーバーリフレアを減らし、有害なクエリーを拒絶するが、それらはジェイルブレイクに対する脆弱性を大幅に増加させる。本研究は,モデルステアリングにおいて,モデル安全性を損なう場合においても,ロバスト性評価がなければ,ステアリング手法が信頼性の高いように見えるため,標準的な有効性や特異性チェックが不十分であることを示す。

関連論文リスト

AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文参考訳（メタデータ） (2026-02-13T02:29:06Z)
Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である重要かつ過度に調査された安全リスクを無意識に導入することを示します。実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文参考訳（メタデータ） (2026-02-03T12:32:35Z)
Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文参考訳（メタデータ） (2026-01-31T13:06:11Z)
Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文参考訳（メタデータ） (2026-01-30T15:28:42Z)
Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文参考訳（メタデータ） (2026-01-22T07:16:26Z)
LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文参考訳（メタデータ） (2025-09-24T07:31:54Z)
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:59:18Z)
Predicting Safety Misbehaviours in Autonomous Driving Systems using Uncertainty Quantification [8.213390074932132]
本稿では, 深層学習領域と異なる不確実性定量化手法を, 安全クリティカルな誤動作の予測試験のために評価する。車両が実施する不確実性スコアは、高い不確実性スコアがサポートされていない実行条件を示すという直感に従って計算する。本研究では,MC-DropoutとDeep Ensemblesの2つの不確実な定量化手法,すなわち,誤動作回避のための有効性と計算オーバーヘッドの評価を行った。
論文参考訳（メタデータ） (2024-04-29T10:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。