論文の概要: FaithSteer-BENCH: A Deployment-Aligned Stress-Testing Benchmark for Inference-Time Steering
- arxiv url: http://arxiv.org/abs/2603.18329v1
- Date: Wed, 18 Mar 2026 22:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.871627
- Title: FaithSteer-BENCH: A Deployment-Aligned Stress-Testing Benchmark for Inference-Time Steering
- Title(参考訳): FaithSteer-BENCH: 推論時間ステアリングのためのデプロイ指向のストレステストベンチマーク
- Authors: Zikang Ding, Qiying Hu, Yi Zhang, Hongji Li, Junchi Yao, Hongbo Liu, Lijie Hu,
- Abstract要約: FaithSteer-BENCHはストレステストベンチマークである。
制御性, 実用性, 堅牢性の3つのゲートワイド基準により, 固定配置式運転点での操舵方法を評価する。
ゲートワイズベンチマークの結果は、既存の手法がデプロイメント指向の実践的設定において信頼性の高い制御性を提供するとは限らないことを示している。
- 参考スコア(独自算出の注目度): 11.609466767597093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time steering is widely regarded as a lightweight and parameter-free mechanism for controlling large language model (LLM) behavior, and prior work has often suggested that simple activation-level interventions can reliably induce targeted behavioral changes. However, such conclusions are typically drawn under relatively relaxed evaluation settings that overlook deployment constraints, capability trade-offs, and real-world robustness. We therefore introduce \textbf{FaithSteer-BENCH}, a stress-testing benchmark that evaluates steering methods at a fixed deployment-style operating point through three gate-wise criteria: controllability, utility preservation, and robustness. Across multiple models and representative steering approaches, we uncover several systematic failure modes that are largely obscured under standard evaluation, including illusory controllability, measurable cognitive tax on unrelated capabilities, and substantial brittleness under mild instruction-level perturbations, role prompts, encoding transformations, and data scarcity. Gate-wise benchmark results show that existing methods do not necessarily provide reliable controllability in deployment-oriented practical settings. In addition, mechanism-level diagnostics indicate that many steering methods induce prompt-conditional alignment rather than stable latent directional shifts, further explaining their fragility under stress. FaithSteer-BENCH therefore provides a unified benchmark and a clearer analytical lens for future method design, reliability evaluation, and deployment-oriented research in steering.
- Abstract(参考訳): 推論時ステアリングは、大規模言語モデル(LLM)の振る舞いを制御する軽量かつパラメータフリーなメカニズムとして広く考えられており、先行研究は、単純なアクティベーションレベルの介入が、標的となる行動変化を確実に誘導できることをしばしば示唆している。
しかしながら、そのような結論は通常、デプロイメントの制約、能力のトレードオフ、現実の堅牢性を見越した比較的緩やかな評価設定の下で引き出される。
そこで我々は, 制御性, 実用性, 堅牢性という3つのゲートワイド基準により, 固定配置方式の動作点におけるステアリング手法の評価を行うストレステストベンチマークである, \textbf{FaithSteer-BENCH} を導入する。
複数のモデルと代表的ステアリングアプローチを通じて、照度制御性、無関係な能力に対する計測不可能な認知税、軽度な命令レベルの摂動による実質的な脆さ、ロールプロンプト、エンコーディング変換、データ不足など、標準的な評価下では明らかにされていないいくつかの系統的障害モードを明らかにした。
ゲートワイズベンチマークの結果は、既存の手法がデプロイメント指向の実践的設定において信頼性の高い制御性を提供するとは限らないことを示している。
さらに、メカニズムレベルの診断では、多くのステアリング法は、安定な遅延方向シフトよりも、迅速な条件付きアライメントを誘導し、ストレス下でのその脆弱さを説明できる。
したがって、FaithSteer-BENCHは統合ベンチマークと、将来のメソッド設計、信頼性評価、ステアリングにおけるデプロイメント指向の研究のためのより明確な分析レンズを提供する。
関連論文リスト
- AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-13T02:29:06Z) - On the Identifiability of Steering Vectors in Large Language Models [0.0]
アクティベーションステアリング法は大規模言語モデルの振る舞いを制御するために広く用いられている。
この解釈は、操舵方向が入力出力動作から識別可能で一意に回復可能であることを暗黙的に仮定する。
操舵ベクトルは、行動的に区別不能な介入の大きな同値類のため、基本的には識別不可能であることを示す。
論文 参考訳(メタデータ) (2026-02-06T15:53:50Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Steering Language Models Before They Speak: Logit-Level Interventions [9.055997973281919]
制御可能な生成のためのトレーニング不要な推論時間ロジット介入を提案する。
以上の結果から,ロジットステアリングは大きな,一貫した,マルチタスク制御のゲインを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-16T03:00:33Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales [22.789611187514975]
非パラメトリックシーケンシャルテストのメソッド -- 特にコンフォーマルテストマーチンチャル(CTM)と任意の時間価推論 -- は、この監視タスクに有望なツールを提供する。
既存のアプローチは、限られた仮説クラスやアラーム基準の監視に限られています。」
論文 参考訳(メタデータ) (2025-05-07T17:53:47Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。