論文の概要: Long-Tailed Distribution-Aware Router For Mixture-of-Experts in Large Vision-Language Model
- arxiv url: http://arxiv.org/abs/2507.01351v1
- Date: Wed, 02 Jul 2025 04:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.045311
- Title: Long-Tailed Distribution-Aware Router For Mixture-of-Experts in Large Vision-Language Model
- Title(参考訳): 大型ビジョンランゲージモデルにおける混合実験用長距離配電用ルータ
- Authors: Chaoxiang Cai, Longrong Yang, Kaibing Chen, Fan Yang, Xi Li,
- Abstract要約: 視覚言語モデルにおけるモダリティ特異的ルーティングのための分布対応ルータを提案する。
視覚テールトークンのアクティベートした専門家の数を増やすことで、オーバーサンプリングのような戦略を導入する。
大規模なベンチマーク実験は、我々のアプローチの有効性を検証する。
- 参考スコア(独自算出の注目度): 9.553346865898366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mixture-of-experts (MoE), which replaces dense models with sparse architectures, has gained attention in large vision-language models (LVLMs) for achieving comparable performance with fewer activated parameters. Existing MoE frameworks for LVLMs focus on token-to-expert routing (TER), encouraging different experts to specialize in processing distinct tokens. However, these frameworks often rely on the load balancing mechanism, overlooking the inherent distributional differences between vision and language. To this end, we propose a Long-Tailed Distribution-aware Router (LTDR) for vision-language TER, tackling two challenges: (1) Distribution-aware router for modality-specific routing. We observe that language TER follows a uniform distribution, whereas vision TER exhibits a long-tailed distribution. This discrepancy necessitates distinct routing strategies tailored to each modality. (2) Enhancing expert activation for vision tail tokens. Recognizing the importance of vision tail tokens, we introduce an oversampling-like strategy by increasing the number of activated experts for these tokens. Experiments on extensive benchmarks validate the effectiveness of our approach.
- Abstract(参考訳): 厳密なモデルをスパースアーキテクチャに置き換えたMoE(mixed-of-experts)は、アクティベートパラメータを少なくして同等の性能を達成するために、大きな視覚言語モデル(LVLM)で注目を集めている。
LVLMの既存のMoEフレームワークはトークン・トゥ・エキスパート・ルーティング(TER)に焦点を当てており、異なる専門家が異なるトークンを処理することを奨励している。
しかしながら、これらのフレームワークは、しばしばロードバランシング機構に依存し、ビジョンと言語の間に固有の分散的な違いを見下ろしている。
そこで本研究では,視覚言語TERのためのLong-Tailed Distribution-aware Router (LTDR)を提案する。
我々は、言語 TER が一様分布に従うのに対して、視覚 TER は長い尾の分布を示す。
この不一致は、それぞれのモダリティに合わせて異なるルーティング戦略を必要とする。
(2)ビジョンテールトークンのエキスパートアクティベーション向上。
ビジョンテールトークンの重要性を認識し,これらのトークンに対して,アクティベートされた専門家の数を増やすことで,オーバーサンプリングのような戦略を導入する。
大規模なベンチマーク実験は、我々のアプローチの有効性を検証する。
関連論文リスト
- EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models [25.12002287083368]
MLLM(Multi-modal large language model)は、MoE技術を採用した。
MoEの専門家は、単にLPMからFFNパラメータを複製することで、しばしば発生する。
専門家の統一性は、MOEの専門家が単に LLM から FFN パラメータを複製することによって生じることが多いためである。
ルータの剛性は 専門家の選択に 静的リニアルータが 広く使われていることに由来する
論文 参考訳(メタデータ) (2025-05-28T08:38:39Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Improving Routing in Sparse Mixture of Experts with Graph of Tokens [32.46693871593765]
確率的グラフィカルモデル(PGM)の観点からSMOE(Sparse Mixture of Experts)の限界を明らかにする。
本稿では,専門家選択時のトークン間の相互作用を考慮した新しい類似性認識(S)MoEを提案する。
我々は、様々なタスクやドメインでモデルを実証的に検証し、ルーティングのゆらぎを低減するための大幅な改善を示す。
論文 参考訳(メタデータ) (2025-05-01T18:44:20Z) - CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - RS-MoE: A Vision-Language Model with Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering [23.699493284403967]
本稿では,リモートセンシングに特化してカスタマイズされた,最初のMixture of ExpertベースのVLMであるRS-MoEを提案する。
従来のMoEモデルとは異なり、RS-MoEのコアとなるMoEブロックは、新しいインストラクションルータと複数の軽量言語モデル(LLM)をエキスパートモデルとして組み込んだものである。
本モデルでは, 精度, 文脈に関連のあるキャプションを生成する際に, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-03T15:05:49Z) - Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model [22.103850646343915]
トークンレベルの勾配分析を用いて、専門家の矛盾するトークンを識別する。
次に、現在の専門家から他の専門家へのルーティングに矛盾するトークンを促進するように調整された正規化損失を追加します。
本手法は,多種多様な視覚・言語モデルのためのプラグインとして機能する。
論文 参考訳(メタデータ) (2024-06-28T13:20:17Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。