論文の概要: R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2502.20395v2
- Date: Sat, 01 Mar 2025 02:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:05:07.688206
- Title: R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
- Title(参考訳): R2-T2:Multimodal Mixture-of-Expertsのテスト時間における再ルーティング
- Authors: Zhongyang Li, Ziyue Li, Tianyi Zhou,
- Abstract要約: 大規模マルチモーダルモデル(LMM)では、非言語的モダリティ(視覚表現など)の知覚は通常、大きな言語モデル(LLM)と同等ではない。
本稿では,テスト時間における経路重みのベクトルを局所的に最適化する,新しい効率的な手法であるRe-Routing in Test-Time (R2-T2)を提案する。
R2-T2は、ベースモデルパラメータを訓練することなく、様々なタスクのベンチマークに挑戦する上で、最先端のLMMの性能を一貫して大幅に改善する。
- 参考スコア(独自算出の注目度): 21.119495676190127
- License:
- Abstract: In large multimodal models (LMMs), the perception of non-language modalities (e.g., visual representations) is usually not on par with the large language models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on challenging downstream tasks. This weakness has been recently mitigated by replacing the vision encoder with a mixture-of-experts (MoE), which provides rich, multi-granularity, and diverse representations required by diverse downstream tasks. The performance of multimodal MoE largely depends on its router, which reweights and mixes the representations of different experts for each input. However, we find that the end-to-end trained router does not always produce the optimal routing weights for every test sample. To bridge the gap, we propose a novel and efficient method "Re-Routing in Test-Time (R2-T2)" that locally optimizes the vector of routing weights in test-time by moving it toward those vectors of the correctly predicted samples in a neighborhood of the test sample. We propose three R2-T2 strategies with different optimization objectives and neighbor-search spaces. R2-T2 consistently and greatly improves state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks, without training any base-model parameters.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)では、非言語モーダル性(例えば視覚表現)の知覚は、大言語モデル(LLM)の強力な推論能力と同等ではなく、下流タスクにおけるLMMのパフォーマンスを低下させる。
この弱点は、視覚エンコーダを、リッチで多粒度で多様な下流タスクに必要な多様な表現を提供するMix-of-experts (MoE)に置き換えることによって、最近緩和されている。
マルチモーダルMOEの性能は、入力ごとに異なる専門家の表現を重み付け、混合するルータに大きく依存する。
しかし、エンドツーエンドのトレーニングルータは、テストサンプル毎に最適なルーティング重みを常に生成しないことがわかった。
このギャップを埋めるために,テストサンプルの近傍で正確に予測されたサンプルのベクトルに移動させることにより,テスト時間におけるルーティング重みのベクトルを局所的に最適化する,新規で効率的な手法"Re-Routing in Test-Time (R2-T2)"を提案する。
最適化目的と近傍探索空間の異なる3つのR2-T2戦略を提案する。
R2-T2は、ベースモデルパラメータを訓練することなく、様々なタスクのベンチマークに挑戦する上で、最先端のLMMの性能を一貫して大幅に改善する。
関連論文リスト
- ORI: O Routing Intelligence [0.7493096930372414]
単一大規模言語モデル(LLM)は、成長を続けるタスクの範囲に直面すると、しばしば不足する。
我々は,一組のLLMを利用する動的フレームワークであるORI(O Routing Intelligence)を提案する。
クエリをインテリジェントにルーティングすることで、ORIはMMLUで最大2.7ポイント、MuSRで1.8ポイントという最強の個別モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-14T10:00:20Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast
Self-Adaptation [145.7321032755538]
L2O(Learning to Optimize)は、複雑なタスクの最適化手順を著しく加速させるため、注目を集めている。
本稿では, アウト・オブ・ディストリビューションタスクへの高速なテスト時間自己適応を実現するL2Oをメタトレーニングすることで, このオープンな課題に対する潜在的な解決策を検討する。
論文 参考訳(メタデータ) (2023-02-28T19:23:20Z) - Multi-Model Least Squares-Based Recomputation Framework for Large Data
Analysis [0.0]
ImageNetデータセットの処理などの複雑なタスクでは、直接エンコードできる手がかりが頻繁にあります。
これは、教師なし学習がまだ学んでいないヒントを学ぶために潜在空間表現を再訓練する動機となる。
本稿では,MP逆(RML-MP)を用いた再計算に基づく多層ネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T23:01:30Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - Improving Multispectral Pedestrian Detection by Addressing Modality
Imbalance Problems [12.806496583571858]
多スペクトル歩行者検出は、色温度変調を利用して、照明条件の不十分さに適応することができる。
従来の歩行者検出と比較して、多スペクトル歩行者検出はモダリティの不均衡問題に悩まされている。
より柔軟でバランスの取れた最適化プロセスを容易にするMBNet(Modality Balance Network)を提案する。
論文 参考訳(メタデータ) (2020-08-07T08:58:46Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。