論文の概要: ReLope: KL-Regularized LoRA Probes for Multimodal LLM Routing
- arxiv url: http://arxiv.org/abs/2603.24787v1
- Date: Wed, 25 Mar 2026 20:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.977471
- Title: ReLope: KL-Regularized LoRA Probes for Multimodal LLM Routing
- Title(参考訳): ReLope:マルチモーダルLCMルーティングのためのKL規則化LoRAプローブ
- Authors: Yaopei Zeng, Congchao Wang, Blake JianHang Chen, Lu Lin,
- Abstract要約: 本稿では,大規模言語モデル(LLM)システムにおけるプローブルーティングを改善するための2つの補完的アプローチを提案する。
まず,アテンションスコアに基づいて先行層から隠れた状態を集約し,分散正当性信号の復元を行うemphAttention Probeを提案する。
第二に、emphKL-Regularized LoRA Probe(ReLope)という軽量なLoRAアダプタを挿入し、KL正規化器を適用してルーティング対応表現を学習する。
- 参考スコア(独自算出の注目度): 5.106806600400179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Routing has emerged as a promising strategy for balancing performance and cost in large language model (LLM) systems that combine lightweight models with powerful but expensive large models. Recent studies show that \emph{probe routing}, which predicts the correctness of a small model using its hidden states, provides an effective solution in text-only LLMs. However, we observe that these probes degrade substantially when applied to multimodal LLMs (MLLMs). Through empirical analysis, we find that the presence of visual inputs weakens the separability of correctness signals in hidden states, making them harder to extract using standard probe designs. To address this challenge, we introduce two complementary approaches for improving probe routing in MLLMs. First, we propose the \emph{Attention Probe}, which aggregates hidden states from the preceding layer based on attention scores to recover distributed correctness signals. Second, we present the \emph{KL-Regularized LoRA Probe (ReLope)}, which inserts a lightweight LoRA adapter and applies a KL regularizer to learn routing-aware representations. Comprehensive experiments show that our methods consistently outperform baselines, suggesting that improving the quality of hidden states is key to effective routing in MLLMs. Our code is available at https://github.com/Spinozaaa/ReLope.
- Abstract(参考訳): ルーティングは、軽量モデルと強力だが高価な大規模モデルを組み合わせた大規模言語モデル(LLM)システムにおいて、パフォーマンスとコストのバランスをとるための有望な戦略として登場した。
近年の研究では、隠れ状態を用いて小さなモデルの正しさを予測する「emph{probe routing}」が、テキストのみのLCMにおいて有効な解であることが示された。
しかし,Multimodal LLM(MLLM)に適用した場合,これらのプローブは著しく劣化する。
経験的解析により、視覚入力の存在が隠れ状態における正当性信号の分離性を弱め、標準プローブ設計による抽出が困難になることがわかった。
この課題に対処するために、MLLMにおけるプローブルーティングを改善するための2つの補完的アプローチを提案する。
まず,アテンションスコアに基づいて先行層から隠れた状態を集約し,分散正当性信号の復元を行う「emph{Attention Probe}」を提案する。
次に、軽量なLoRAアダプタを挿入し、KL正規化器を適用してルーティング対応表現を学習する、emph{KL-Regularized LoRA Probe (ReLope)}を提案する。
総合的な実験により,本手法はベースラインを一貫して上回り,隠れ状態の品質向上がMLLMの効率的なルーティングの鍵となることが示唆された。
私たちのコードはhttps://github.com/Spinozaaa/ReLope.comで公開されています。
関連論文リスト
- Rethinking LoRA for Privacy-Preserving Federated Learning in Large Models [14.755143405057929]
差分プライベートラーニング(DPFL)の下での微調整大型ビジョンモデル(LVM)と大規模言語モデル(LLM)は、基本的なプライバシーとユーティリティのトレードオフによって妨げられる。
Low-Rank Adaptation (LoRA)はPEFT法であり、トレーニング可能な2つの低ランク行列を導入し、事前訓練した重みを凍結することにより、計算と通信のコストを削減する。
LA-LoRAは、勾配の相互作用を分離し、クライアント間で更新方向を調整し、厳密なプライバシー制約の下で堅牢性を高める新しいアプローチである。
論文 参考訳(メタデータ) (2026-02-23T15:05:28Z) - Memory-Based Advantage Shaping for LLM-Guided Reinforcement Learning [18.215893951726166]
スパースや遅延した報酬のある環境では、強化学習は高いサンプル複雑さを引き起こす。
この制限は、大規模言語モデル(LLM)をサブゴール発見や軌道誘導に使う動機となった。
LLMガイダンスとエージェント自身のロールアウトの成功の両方から,サブゴールとトラジェクトリを符号化したメモリグラフを構築することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2026-02-20T01:44:35Z) - Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs [24.791817951102487]
ルーティング重みの多様体をタスク埋め込みの多様体と整合させることで、このギャップを効果的に軽減できることを示す。
実験では,RoMAを用いてOLMoE,DeepSeekMoE,Qwen3-MoEのルータを微調整する。
論文 参考訳(メタデータ) (2025-11-10T18:59:53Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。