論文の概要: Inference-time Alignment via Sparse Junction Steering
- arxiv url: http://arxiv.org/abs/2602.21215v1
- Date: Fri, 30 Jan 2026 08:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.650449
- Title: Inference-time Alignment via Sparse Junction Steering
- Title(参考訳): スパース接合ステアリングによる推論時間アライメント
- Authors: Runyi Hu, Jie Zhang, Shiqian Zhao, Jiale Meng, Jiwei Li, Jason Zeng, Ming Wu, Michael Heinrich, Yonggang Wen, Tianwei Zhang,
- Abstract要約: 推論時間アライメントのための重要なアプローチとして、トークンレベルのステアリングが登場している。
既存の手法はデコードの各ステップで密接な介入に依存している。
密接な介入は不要であり,スパースジャンクションステアリングを提案する。
- 参考スコア(独自算出の注目度): 25.464612964225484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token-level steering has emerged as a pivotal approach for inference-time alignment, enabling fine grained control over large language models by modulating their output distributions without parameter updates. While effective, existing methods rely on dense intervention at every decoding step. This persistent manipulation not only incurs substantial computational overhead but also risks compromising generation quality by excessively drifting from the model's intrinsic distribution. In this work, we show that dense intervention is unnecessary and propose Sparse Inference time Alignment (SIA), which performs sparse junction steering by intervening only at critical decision points along the generation trajectory. Our key insight is that high entropy junctions mark pivotal decision points in the generation trajectory and are particularly susceptible to misalignment, indicating the need to introduce alignment related reward signals at these points. Extensive experiments across different model families and alignment objectives show that steering only 20% to 80% of tokens achieves superior alignment-efficiency trade offs. For strong base models such as Qwen3, intervening on as few as 20% of tokens matches or even surpasses heavily post-trained instruct models. This sparsity enables stronger guidance while better preserving the model's native distribution, integrates seamlessly with search based methods such as Best-of-N, and reduces computational cost by up to 6x.
- Abstract(参考訳): トークンレベルのステアリングは推論時アライメントのための重要なアプローチとして登場しており、パラメータを更新せずに出力分布を調節することで、大きな言語モデルのきめ細かい制御を可能にしている。
実効性はあるものの、既存の手法は復号ステップごとに密接な介入に依存している。
この永続的な操作は、かなりの計算オーバーヘッドを発生させるだけでなく、モデル固有の分布から過剰にドリフトすることで生成品質を損なうリスクも生ずる。
本研究では, 高密度介入は不要であることを示すとともに, 生成経路に沿った重要な決定点のみにのみ介入してスパースジャンクションステアリングを行うSparse Inference Time Alignment (SIA)を提案する。
我々の重要な洞察は、高エントロピージャンクションは世代軌跡における重要な決定点であり、特に不適応の影響を受けやすいことであり、これらの点にアライメント関連報酬信号を導入する必要があることを示している。
異なるモデルファミリとアライメントの目的にわたる広範囲な実験は、トークンの20%から80%しかステアリングが優れたアライメント効率のトレードオフをもたらすことを示している。
Qwen3のような強力なベースモデルでは、トークンの20%しか一致しないし、訓練後のインストラクションモデルを超えることもある。
このスパーシリティは、モデルのネイティブ分布を良く保ちながらより強力なガイダンスを可能にし、Best-of-Nのような検索ベースの手法とシームレスに統合し、計算コストを最大6倍に削減する。
関連論文リスト
- Faithful Bi-Directional Model Steering via Distribution Matching and Distributed Interchange Interventions [37.08071497197165]
インターベンションベースのモデルステアリングは、プロンプトと微調整のための軽量で解釈可能な代替手段を提供する。
本研究では,分散アライメント探索の原理に基づいて,新しいステアリング手法である概念DASを提案する。
概念DASは必ずしも選好最適化法より優れるわけではないが、モデルスケールの増大により恩恵を受ける可能性があることを示す。
論文 参考訳(メタデータ) (2026-02-05T02:51:00Z) - D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models [16.540220733551823]
VLM(Large Vision-Language Models)は、強力なマルチモーダル推論を実現するが、冗長な視覚トークンから重い推論コストを発生させる。
注意に基づく手法は、しばしばレイヤやヘッド間で不安定な生の注意スコアに依存する。
簡単な直感に基づいて構築されたトレーニング不要のフレームワークとして,我々の提案する。
論文 参考訳(メタデータ) (2025-09-29T14:20:05Z) - Discrete Guidance Matching: Exact Guidance for Discrete Flow Matching [36.348940136801296]
この問題に対処するために、離散データのための新しいガイダンスフレームワークを提案する。
学習した離散フローマッチングモデルにより、所望の分布の正確な遷移率を導出する。
本稿では,エネルギー誘導型シミュレーションと嗜好アライメントによるテキスト・ツー・イメージ生成とマルチモーダル理解タスクの有効性を示す。
論文 参考訳(メタデータ) (2025-09-26T05:51:31Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Learning Distribution-Wise Control in Representation Space for Language Models [7.756342860929851]
学習可能な介入は、概念のサブスペースにポイントワイズ制御を適用することを目的としており、ハイレベルな振る舞いを変更するのに有効であることが証明されている。
我々は、このアプローチを分布レベルにまで拡張し、モデルがポイントワイズ変換だけでなく、概念部分空間の周辺領域も学習できるようにする。
論文 参考訳(メタデータ) (2025-06-07T06:52:58Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。