論文の概要: Mind the Performance Gap: Capability-Behavior Trade-offs in Feature Steering
- arxiv url: http://arxiv.org/abs/2602.04903v1
- Date: Tue, 03 Feb 2026 21:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.52562
- Title: Mind the Performance Gap: Capability-Behavior Trade-offs in Feature Steering
- Title(参考訳): パフォーマンスのギャップを意識する: 機能ステアリングにおける能力と振る舞いのトレードオフ
- Authors: Eitan Sprejer, Oscar Agustín Stanchi, María Victoria Carro, Denise Alejandra Mester, Iván Arcuschin,
- Abstract要約: 本研究では,目標動作の制御に成功しても,機能ステアリング手法がモデル性能を著しく低下させることを示す。
これらの知見は,タスク性能を犠牲にできない実運用における現在の機能ステアリング手法の限界を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature steering has emerged as a promising approach for controlling LLM behavior through direct manipulation of internal representations, offering advantages over prompt engineering. However, its practical effectiveness in real-world applications remains poorly understood, particularly regarding potential trade-offs with output quality. We show that feature steering methods substantially degrade model performance even when successfully controlling target behaviors, a critical trade-off. Specifically, we evaluate Goodfire's Auto Steer against prompt engineering baselines across 14 steering queries (covering innocuous and safety-relevant behaviors) on 171 Massive Multitask Language Understanding (MMLU) questions using Llama-8B and Llama-70B, measuring accuracy, coherence, and behavioral control. Our findings show that Auto Steer successfully modifies target behaviors (achieving scores of 3.33 vs. 2.98 for prompting on Llama-8B and 3.57 vs. 3.10 on Llama-70B), but causes dramatic performance degradation: accuracy on the MMLU questions drops from 66% to 46% on Llama-8B and 87% to 73% on Llama-70B, with coherence falling from 4.62 to 2.24 and 4.94 to 3.89 respectively. Simple prompting achieves the best overall balance. These findings highlight limitations of current feature steering methods for practical deployment where task performance cannot be sacrificed. More broadly, our work demonstrates that mechanistic control methods face fundamental capability-behavior trade-offs that must be empirically characterized before deployment.
- Abstract(参考訳): 機能ステアリングは、内部表現を直接操作することでLCMの動作を制御するための有望なアプローチとして現れ、プロンプトエンジニアリングよりも有利である。
しかし、実世界の応用における実用的効果は、特に出力品質との潜在的なトレードオフについて、よく理解されていない。
本研究では,目標動作の制御に成功しても,機能ステアリング手法がモデル性能を著しく低下させることを示す。
具体的には,GoodfireのAuto Steerを,Llama-8BとLlama-70Bを用いた大規模マルチタスク言語理解(MMLU)質問171に対して,14のステアリングクエリ(無害および安全関連行動を含む)にわたる迅速なエンジニアリングベースラインに対して評価し,精度,コヒーレンス,行動制御について検討した。
以上の結果から,Auto Steerは目標行動の修正に成功(Llama-8Bでは3.33点,Llama-70Bでは3.57点,Llama-70Bでは3.10点,MMLUでは66%から46%,Llama-70Bでは87%から73%,コヒーレンスでは4.62点,2.24点,4.94点,3.89点)した。
単純なプロンプトは、全体的なバランスを最高のものにします。
これらの知見は,タスク性能を犠牲にできない実運用における現在の機能ステアリング手法の限界を浮き彫りにしている。
より広い範囲で、我々の研究は、機械的制御手法が、展開前に経験的に特徴づけなければならない基本的な能力-振る舞いのトレードオフに直面していることを示しています。
関連論文リスト
- Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - Painless Activation Steering: An Automated, Lightweight Approach for Post-Training Large Language Models [0.3966526231056968]
アクティベーションステアリング(AS)は、既存の2つのポストトレーニング方法に代わる、安価で、高速で、制御可能な代替手段を約束する。
完全に自動化された手法のファミリーであるPainless Activation Steering (PAS)を紹介する。
PASは行動タスクのパフォーマンスを確実に向上させるが、インテリジェンス指向のタスクには向いていない。
論文 参考訳(メタデータ) (2025-09-25T23:25:47Z) - CorrSteer: Generation-Time LLM Steering via Correlated Sparse Autoencoder Features [1.5874067490843806]
提案するCorrSteerは,サンプルの正しさとSAEのアクティベーションを推論時に生成したトークンから関連付けて特徴を選択する。
我々の研究は、言語モデルアプリケーション間での自動SAEステアリングのための効果的でスケーラブルなアプローチとして相関ベースの選択を確立する。
論文 参考訳(メタデータ) (2025-08-18T00:01:42Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints [31.90180597239974]
アクション・アンド・チェンジ(RAC)に関する推論(Reasoning about Actions and Change)は、AIの基本的な問題を解決する上で、歴史的に重要な役割を担ってきた。
我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを紹介し、19のアクションシーケンスに対する質問を含む。
このベンチマークは、6つの主要なRAC次元にわたるLLM(Large Language Models)を厳格に評価する。
論文 参考訳(メタデータ) (2024-06-06T13:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。