論文の概要: AMPS: Adaptive Modality Preference Steering via Functional Entropy
- arxiv url: http://arxiv.org/abs/2602.12533v1
- Date: Fri, 13 Feb 2026 02:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.81519
- Title: AMPS: Adaptive Modality Preference Steering via Functional Entropy
- Title(参考訳): AMPS: 機能的エントロピーによる適応的モダリティ選好ステアリング
- Authors: Zihan Huang, Xintong Li, Rohan Surana, Tong Yu, Rui Wang, Julian McAuley, Jingbo Shang, Junda Wu,
- Abstract要約: 本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 66.69992693275061
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) often exhibit significant modality preference, which is a tendency to favor one modality over another. Depending on the input, they may over-rely on linguistic priors relative to visual evidence, or conversely over-attend to visually salient but facts in textual contexts. Prior work has applied a uniform steering intensity to adjust the modality preference of MLLMs. However, strong steering can impair standard inference and increase error rates, whereas weak steering is often ineffective. In addition, because steering sensitivity varies substantially across multimodal instances, a single global strength is difficult to calibrate. To address this limitation with minimal disruption to inference, we introduce an instance-aware diagnostic metric that quantifies each modality's information contribution and reveals sample-specific susceptibility to steering. Building on these insights, we propose a scaling strategy that reduces steering for sensitive samples and a learnable module that infers scaling patterns, enabling instance-aware control of modality preference. Experimental results show that our instance-aware steering outperforms conventional steering in modulating modality preference, achieving effective adjustment while keeping generation error rates low.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はしばしば重要なモダリティの選好を示すが、これは他のモダリティよりも1つのモダリティを好む傾向にある。
入力によっては、視覚的エビデンスに対する言語的先行性に過度に依存するかもしれないし、逆に視覚的に健全な事実に過度に依存するかもしれない。
従来の作業では、MLLMのモダリティ選好を調整するために、均一なステアリング強度を適用している。
しかし、強力なステアリングは標準の推論を損なう可能性があり、エラー率を増加させるが、弱いステアリングはしばしば非効率である。
また, 操舵感度は多モーダルインスタンス間で大きく異なるため, 単一の大域強度の校正が困難である。
この制限を最小限に抑えるために、各モードの情報提供量を定量化し、ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を導入する。
これらの知見に基づいて、センシティブなサンプルのステアリングを減らすスケーリング戦略と、スケーリングパターンを推論する学習可能なモジュールを提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れており, 生成誤差率を低く保ち, 効果的な調整が可能であることがわかった。
関連論文リスト
- Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - One-shot Optimized Steering Vector for Hallucination Mitigation for VLMs [8.089908150148554]
視覚言語モデル(VLM)は、マルチモーダルタスクにおいて高いパフォーマンスを達成するが、まだ幻覚や安全関連の障害に悩まされている。
textbf1-shot textbfSteering with textbfGenerative textbfAnchorは、単一の最適化インスタンスでモデル性能を改善するための、入力に依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T14:47:59Z) - Steering Language Models Before They Speak: Logit-Level Interventions [9.055997973281919]
制御可能な生成のためのトレーニング不要な推論時間ロジット介入を提案する。
以上の結果から,ロジットステアリングは大きな,一貫した,マルチタスク制御のゲインを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-16T03:00:33Z) - ATLAS: Adaptive Test-Time Latent Steering with External Verifiers for Enhancing LLMs Reasoning [13.073472989807675]
我々はATLAS(Adaptive Test-Time Latent Steering)を提案する。
ATLASは外部の軽量潜伏検証器を用いて推論時のステアリング決定を動的に制御する。
複数の数学的推論ベンチマークの実験は、ATLASがバニラ復号化と固定ステアリングベースラインの両方を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-06T15:27:24Z) - EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [8.085475675888045]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。