論文の概要: AnyExperts: On-Demand Expert Allocation for Multimodal Language Models with Mixture of Expert
- arxiv url: http://arxiv.org/abs/2511.18314v1
- Date: Sun, 23 Nov 2025 06:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.766483
- Title: AnyExperts: On-Demand Expert Allocation for Multimodal Language Models with Mixture of Expert
- Title(参考訳): AnyExperts: エキスパートの混在によるマルチモーダル言語モデルのためのオンデマンドエキスパートアロケーション
- Authors: Yuting Gao, Wang Lan, Hengyuan Zhao, Linjiang Huang, Si Liu, Qingpei Guo,
- Abstract要約: 我々はAnyExpertsという新しいオンデマンド・予算対応動的ルーティングフレームワークを提案する。
トークンごとに、その意味的重要性に基づいて、可変な専門家スロット数を割り当てる。
視覚的理解、音声理解、NLP理解の様々なタスクにまたがって評価される。
- 参考スコア(独自算出の注目度): 26.761443359046286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Mixture-of-Experts (MoE) models offer a promising path toward scalable and efficient large vision-language systems. However, existing approaches rely on rigid routing strategies (typically activating a fixed number of experts per token) ignoring the inherent heterogeneity in semantic importance across modalities. This leads to suboptimal compute allocation, where redundant tokens consume as many resources as critical ones. To address this, we propose AnyExperts, a novel on-demand, budget-aware dynamic routing framework that allocates a variable total number of expert slots per token based on its semantic importance. Crucially, to prevent uncontrolled compute growth, the total slots per token are constrained within a fixed range, and each slot is filled by either a real expert or a virtual expert, with the virtual share capped at a small maximum (e.g., 20%). The model then adaptively balances the real-to-virtual ratio per token, assigning more real experts to semantically rich regions and relying more on virtual experts for redundant content. Evaluated across diverse tasks in visual understanding, audio understanding, and NLP understanding, AnyExperts improves performance under the same compute budget. Notably, on general image/video tasks, it achieves comparable accuracy with 40% fewer real expert activations; on text-dense tasks (OCR and NLP), it maintains performance while reducing real expert usage by 10%. These results demonstrate that fine-grained, importance-driven expert allocation significantly enhances both the efficiency and effectiveness of multimodal MoE models.
- Abstract(参考訳): Multimodal Mixture-of-Experts (MoE)モデルは、スケーラブルで効率的な大規模視覚言語システムへの有望な道を提供する。
しかし、既存のアプローチは厳密なルーティング戦略(典型的にはトークン当たりの一定数の専門家を活性化する)に依存しており、モダリティ間の意味的重要性の固有の不均一性を無視している。
これは、冗長なトークンがクリティカルなリソースを消費する、最適以下の計算割り当てにつながる。
これを解決するために、AnyExpertsを提案する。AnyExpertsは、オンデマンドで予算対応の動的ルーティングフレームワークで、トークンごとに異なる数の専門家スロットを割り当てる。
重要なことに、制御不能な計算増加を防ぐため、トークン当たりの合計スロットは固定範囲内で制限され、各スロットは実際の専門家または仮想専門家によって満たされ、仮想シェアは最小(例、20%)に制限される。
このモデルは、トークンあたりの実際の仮想比を適応的にバランスさせ、よりリアルな専門家を意味的に豊かな地域に割り当て、冗長なコンテンツに対して仮想的な専門家に依存する。
視覚的理解、音声理解、NLP理解の様々なタスクを評価することで、AnyExpertsは同じ計算予算の下でパフォーマンスを改善する。
特に、一般的な画像/ビデオタスクでは、実際の専門家のアクティベーションを40%削減し、同等の精度を実現している。
これらの結果は, 細粒度, 重要度に依存したエキスパートアロケーションが, マルチモーダルMOEモデルの効率性と有効性を大幅に向上させることを示した。
関連論文リスト
- Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - GMoPE:A Prompt-Expert Mixture Framework for Graph Foundation Models [30.023472202549076]
グラフニューラルネットワーク(GNN)はタスク固有のベンチマークで素晴らしいパフォーマンスを示しているが、さまざまなドメインやタスクをまたいで一般化する能力は限定的だ。
GMoPEは,Mixture-of-Experts(MoE)アーキテクチャをグラフの即時学習とシームレスに統合するフレームワークである。
GMoPEは、最先端のベースラインを一貫して上回り、完全なパラメータの微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-11-05T07:28:51Z) - One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning [52.966712416640085]
本稿では,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2025-09-29T08:54:58Z) - SPANER: Shared Prompt Aligner for Multimodal Semantic Representation [0.0]
Shared Prompt AligNER (SPANER) は、様々なモダリティからの入力を統一的なセマンティック空間に埋め込むために設計された、モダリティに依存しないPEFTフレームワークである。
SPANERは、概念的なアンカーとして機能する共有プロンプト機構を採用しており、意味的に関連するインスタンスがモダリティに関係なく空間的に収束することを可能にする。
本結果は,適応重みを調整するのではなく,組込み構造を整列させることが,スケーラブルなマルチモーダル学習において重要であることを示す。
論文 参考訳(メタデータ) (2025-08-18T22:20:42Z) - MoE-MLoRA for Multi-Domain CTR Prediction: Efficient Adaptation with Expert Specialization [0.0]
MoE-MLoRAはエキスパートの混成フレームワークで、各専門家はドメインを専門にするために独立して訓練される。
MoE-MLoRAはMovielensとTaobaoの8つのCTRモデルで評価した。
論文 参考訳(メタデータ) (2025-06-09T09:03:05Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Mixture of Nested Experts: Adaptive Processing of Visual Tokens [49.43920770789789]
Vision Transformer (ViT) ベースのモデルは、固有の冗長性に乗じず、より高い計算コストをもたらす。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T13:19:31Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。