論文の概要: R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2502.20395v1
- Date: Thu, 27 Feb 2025 18:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:47.235409
- Title: R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
- Title(参考訳): R2-T2:Multimodal Mixture-of-Expertsのテスト時間における再ルーティング
- Authors: Zhongyang Li, Ziyue Li, Tianyi Zhou,
- Abstract要約: 大規模マルチモーダルモデル(LMM)では、非言語的モダリティ(視覚表現など)の知覚は通常、大きな言語モデル(LLM)と同等ではない。
テスト時間における経路重みのベクトルを局所的に最適化する「テスト時間における再ルーティング」(R2-T2)を提案する。
R2-T2は、ベースモデルパラメータを訓練することなく、様々なタスクのベンチマークに挑戦する上で、最先端のLMMの性能を一貫して大幅に改善する。
- 参考スコア(独自算出の注目度): 21.119495676190127
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In large multimodal models (LMMs), the perception of non-language modalities (e.g., visual representations) is usually not on par with the large language models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on challenging downstream tasks. This weakness has been recently mitigated by replacing the vision encoder with a mixture-of-experts (MoE), which provides rich, multi-granularity, and diverse representations required by diverse downstream tasks. The performance of multimodal MoE largely depends on its router, which reweights and mixes the representations of different experts for each input. However, we find that the end-to-end trained router does not always produce the optimal routing weights for every test sample. To bridge the gap, we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that locally optimizes the vector of routing weights in test-time by moving it toward those vectors of the correctly predicted samples in a neighborhood of the test sample. We propose three R2-T2 strategies with different optimization objectives and neighbor-search spaces. R2-T2 consistently and greatly improves state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks, without training any base-model parameters.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)では、非言語モーダル性(例えば視覚表現)の知覚は、大言語モデル(LLM)の強力な推論能力と同等ではなく、下流タスクにおけるLMMのパフォーマンスを低下させる。
この弱点は、視覚エンコーダを、リッチで多粒度で多様な下流タスクに必要な多様な表現を提供するMix-of-experts (MoE)に置き換えることによって、最近緩和されている。
マルチモーダルMOEの性能は、入力ごとに異なる専門家の表現を重み付け、混合するルータに大きく依存する。
しかし、エンドツーエンドのトレーニングルータは、テストサンプル毎に最適なルーティング重みを常に生成しないことがわかった。
このギャップを埋めるために,テスト時間(R2-T2)におけるリルーティング(Re-Routing in Test-Time, R2-T2)を提案する。
最適化目的と近傍探索空間の異なる3つのR2-T2戦略を提案する。
R2-T2は、ベースモデルパラメータを訓練することなく、様々なタスクのベンチマークに挑戦する上で、最先端のLMMの性能を一貫して大幅に改善する。
関連論文リスト
- Dual-Stream Attention with Multi-Modal Queries for Object Detection in Transportation Applications [6.603505460200282]
トランスフォーマーをベースとしたオブジェクト検出器は、固定されたクエリと集中的な注意によって引き起こされるオクルージョン、きめ細かなローカライゼーション、計算の非効率に苦しむことが多い。
我々は,クエリ適応と構造化されたクロスアテンションの両方を導入し,精度と効率を向上させるための新しいフレームワークである,マルチモーダルクエリを用いたDAMM,デュアルストリームアテンションを提案する。
論文 参考訳(メタデータ) (2025-08-06T20:37:24Z) - Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs [21.541258368039955]
事前訓練された大規模言語モデル(LLM)のレイヤを独立したモジュールとして操作することで、テストサンプル毎にカスタマイズされたより良く、より浅いモデルを構築することができる。
特に、事前訓練されたモデルからの各レイヤは、繰り返しニューラルネットワーク(RNN)としてスキップ/プルーニングまたは繰り返し、任意の順序で他のレイヤと積み重ねられ、サンプル毎にチェーン・オブ・レイヤ(CoLa)が生成される。
論文 参考訳(メタデータ) (2025-07-10T17:59:53Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task Learning [18.0412262027514]
マルチタスクのためのMixture of Low-Rank Experts (MoRE)を提案する。
各タスクに個別のLoRAを使う代わりに、異なるタスクでLoRAモジュールの異なるランクを調整します。
また、タスクごとに適切な専門家を選択するために、新しい適応的なランクセレクタを設計する。
論文 参考訳(メタデータ) (2025-05-28T12:32:09Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。
M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - ORI: O Routing Intelligence [0.7493096930372414]
単一大規模言語モデル(LLM)は、成長を続けるタスクの範囲に直面すると、しばしば不足する。
我々は,一組のLLMを利用する動的フレームワークであるORI(O Routing Intelligence)を提案する。
クエリをインテリジェントにルーティングすることで、ORIはMMLUで最大2.7ポイント、MuSRで1.8ポイントという最強の個別モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-14T10:00:20Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Multi-Model Least Squares-Based Recomputation Framework for Large Data
Analysis [0.0]
ImageNetデータセットの処理などの複雑なタスクでは、直接エンコードできる手がかりが頻繁にあります。
これは、教師なし学習がまだ学んでいないヒントを学ぶために潜在空間表現を再訓練する動機となる。
本稿では,MP逆(RML-MP)を用いた再計算に基づく多層ネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T23:01:30Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z) - Improving Multispectral Pedestrian Detection by Addressing Modality
Imbalance Problems [12.806496583571858]
多スペクトル歩行者検出は、色温度変調を利用して、照明条件の不十分さに適応することができる。
従来の歩行者検出と比較して、多スペクトル歩行者検出はモダリティの不均衡問題に悩まされている。
より柔軟でバランスの取れた最適化プロセスを容易にするMBNet(Modality Balance Network)を提案する。
論文 参考訳(メタデータ) (2020-08-07T08:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。