論文の概要: FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.15488v1
- Date: Thu, 16 Apr 2026 19:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.633985
- Title: FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models
- Title(参考訳): FineSteer: 大規模言語モデルにおける細粒度推論時間ステアリングのための統一フレームワーク
- Authors: Zixuan Weng, Jinghuai Zhang, Kunlin Cai, Ying Li, Peiran Wang, Yuan Tian,
- Abstract要約: FineSteerは、推論時のステアリングを2つの相補的なステージに分解する、新しいステアリングフレームワークである。
最初の段階では、不要なステアリングを回避してモデルユーティリティを保存するサブスペース誘導型コンディショナルステアリング(SCS)機構を導入する。
第2段階では、所望の操舵動作のマルチモーダルな性質を捉えるMixture-of-Steering-Experts (MoSE) 機構を提案する。
- 参考スコア(独自算出の注目度): 15.040862439283593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often exhibit undesirable behaviors, such as safety violations and hallucinations. Although inference-time steering offers a cost-effective way to adjust model behavior without updating its parameters, existing methods often fail to be simultaneously effective, utility-preserving, and training-efficient due to their rigid, one-size-fits-all designs and limited adaptability. In this work, we present FineSteer, a novel steering framework that decomposes inference-time steering into two complementary stages: conditional steering and fine-grained vector synthesis, allowing fine-grained control over when and how to steer internal representations. In the first stage, we introduce a Subspace-guided Conditional Steering (SCS) mechanism that preserves model utility by avoiding unnecessary steering. In the second stage, we propose a Mixture-of-Steering-Experts (MoSE) mechanism that captures the multimodal nature of desired steering behaviors and generates query-specific steering vectors for improved effectiveness. Through tailored designs in both SCS and MoSE, FineSteer maintains robust performance on general queries while adaptively optimizing steering vectors for targeted inputs in a training-efficient manner. Extensive experiments on safety and truthfulness benchmarks show that FineSteer outperforms state-of-the-art methods in overall performance, achieving stronger steering performance with minimal utility loss. Code is available at https://github.com/YukinoAsuna/FineSteer
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全違反や幻覚といった望ましくない行動を示すことが多い。
推論時ステアリングは、パラメータを更新せずにモデル動作を調整するためのコスト効率のよい方法を提供するが、既存の手法は、厳密で一等な設計と限定的な適応性のために、同時に効果的、実用的、訓練効率の面で失敗することが多い。
本研究では、推論時ステアリングを2つの相補的な段階、条件付きステアリングと細粒度ベクトル合成に分解する新しいステアリングフレームワークであるFineSteerについて述べる。
最初の段階では、不要なステアリングを回避してモデルユーティリティを保存するサブスペース誘導型コンディショナルステアリング(SCS)機構を導入する。
第2段階では、所望のステアリング動作のマルチモーダルな性質を捉えるMixture-of-Steering-Experts (MoSE) 機構を提案する。
SCSとMoSEの両方で調整された設計により、FinalSteerは汎用クエリ上で堅牢な性能を維持しながら、ターゲット入力に対するステアリングベクトルをトレーニング効率よく適応的に最適化する。
安全性と真偽のベンチマークに関する大規模な実験により、FineSteerは全体のパフォーマンスにおいて最先端の手法よりも優れており、最小限のユーティリティ損失でより強力なステアリング性能を実現していることが示された。
コードはhttps://github.com/YukinoAsuna/FineSteerで入手できる。
関連論文リスト
- AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-13T02:29:06Z) - Controllable and explainable personality sliders for LLMs at inference time [1.3688381983244782]
連続多次元パーソナリティ制御のためのモジュラーフレームワークを提案する。
我々の重要な革新は、逐次適応ステアリング(SAS)である。これは、先行介入によってシフトした残流上のその後のプローブをトレーニングすることで、ステアリングベクトルを変換する手法である。
我々は,ビッグファイブの性格特性に関する枠組みを検証し,ゴール順守とコヒーレンスの両方において,ナイーブ・ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-10T08:16:59Z) - Faithful Bi-Directional Model Steering via Distribution Matching and Distributed Interchange Interventions [37.08071497197165]
インターベンションベースのモデルステアリングは、プロンプトと微調整のための軽量で解釈可能な代替手段を提供する。
本研究では,分散アライメント探索の原理に基づいて,新しいステアリング手法である概念DASを提案する。
概念DASは必ずしも選好最適化法より優れるわけではないが、モデルスケールの増大により恩恵を受ける可能性があることを示す。
論文 参考訳(メタデータ) (2026-02-05T02:51:00Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - One-shot Optimized Steering Vector for Hallucination Mitigation for VLMs [8.089908150148554]
視覚言語モデル(VLM)は、マルチモーダルタスクにおいて高いパフォーマンスを達成するが、まだ幻覚や安全関連の障害に悩まされている。
textbf1-shot textbfSteering with textbfGenerative textbfAnchorは、単一の最適化インスタンスでモデル性能を改善するための、入力に依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T14:47:59Z) - Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - Dynamically Scaled Activation Steering [3.177576903071419]
動的にスケールされたアクティベーションステアリング(DSAS)を導入します。これはメソッドに依存しないステアリングフレームワークで、ステアリングの仕方を分離します。
DSASは、層と入力間の既存の操舵変換の強度を適応的に調節し、望ましくない振る舞いが検出された場合にのみ強く介入する。
論文 参考訳(メタデータ) (2025-12-03T10:50:15Z) - EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。