論文の概要: FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning
- arxiv url: http://arxiv.org/abs/2511.17885v1
- Date: Sat, 22 Nov 2025 02:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.493862
- Title: FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning
- Title(参考訳): FastMMoE: 動的エキスパートアクティベーションとルーティング対応トークンプルーニングによるマルチモーダル大言語モデルの高速化
- Authors: Guoyang Xia, Yifeng Ding, Fengfa Li, Lei Ren, Wei Chen, Fangxiang Feng, Xiaojie Wang,
- Abstract要約: マルチモーダル・大規模言語モデル (MLLM) は優れた性能を達成しているが、高解像度の視覚入力は視覚トークンの長いシーケンスと相当な推論遅延をもたらす。
冗長なビジュアルトークンの削減は、パフォーマンスを維持しながら計算/メモリの負担を軽減するために重要であり、リソース制約やレイテンシに敏感なシナリオでのMLLMデプロイメントを可能にする。
本稿では,Fast Multimodal Mixture-of-Experts (FastMMoE)を提案する。
- 参考スコア(独自算出の注目度): 16.753299634529736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved impressive performance, but high-resolution visual inputs result in long sequences of visual tokens and substantial inference latency. Reducing redundant visual tokens is critical to ease computational/memory burdens while preserving performance, enabling MLLM deployment in resource-constrained or latency-sensitive scenarios. Current visual token pruning methods mainly rely on attention-based redundancy analysis and are tailored to dense architectures. We propose Fast Multimodal Mixture-of-Experts (FastMMoE), a training-free acceleration framework for mixture-of-experts (MoE) based MLLMs, developed from a routing analysis perspective. FastMMoE combines two complementary strategies: (i) expert activation reduction for visual tokens to minimize unnecessary expert computation; and (ii) routing-aware token pruning that leverages similarity in routing probability distributions to identify and remove highly redundant visual tokens. Experiments on large-scale MoE-MLLMs such as DeepSeek-VL2 and InternVL3.5 demonstrate that FastMMoE can reduce FLOPs by up to 55.0% while retaining approximately 95.5% of the original performance, consistently outperforming dense-model pruning baselines including FastV and SparseVLM across multiple retention rates.
- Abstract(参考訳): マルチモーダル・大規模言語モデル (MLLM) は優れた性能を達成しているが、高解像度の視覚入力は視覚トークンの長いシーケンスと相当な推論遅延をもたらす。
冗長なビジュアルトークンの削減は、パフォーマンスを維持しながら計算/メモリの負担を軽減するために重要であり、リソース制約やレイテンシに敏感なシナリオでのMLLMデプロイメントを可能にする。
現在の視覚トークンプルーニング法は主に注意に基づく冗長性解析に依存しており、密集したアーキテクチャに特化している。
本稿では,Fast Multimodal Mixture-of-Experts (FastMMoE)を提案する。
FastMMoEは2つの補完戦略を組み合わせる。
一 不要な専門家計算を最小限に抑えるため、視覚トークンのエキスパートアクティベーション削減
(II)ルーティング確率分布の類似性を利用して、高度に冗長な視覚的トークンを識別・除去するルーティング対応トークンプルーニング。
DeepSeek-VL2やInternVL3.5のような大規模なMoE-MLLMの実験では、FastMMoEはFLOPを最大55.0%削減でき、元の性能の約95.5%を維持し、FastVやSparseVLMなどの高密度モデルのプルーニングベースラインを複数の保持率で一貫して上回っている。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。
AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文 参考訳(メタデータ) (2025-10-20T17:35:47Z) - SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs [74.2538340966038]
マルチモーダル言語モデル(MLLM)が視覚入力をどのように処理するかを,その注意機構を解析して検討する。
LLMにおける注目のごく一部だけが視覚的理解に有効である。
我々は,KVキャッシュ最適化手法であるSparseMMを導入し,その視覚的スコアに基づいて非対称な計算予算をLLMの先頭に割り当てる。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks [41.04727840852988]
大規模言語とマルチモーダルモデル(LLMとLMM)は強い推論能力を示すが、しばしば遅い復号速度によって制限される。
視覚的な入力は通常、テキストよりも低い情報密度のトークンで構成されている。
LMM用に設計された投機的復号化フレームワークである textbfFLASH (Fast Latent-Aware Semi-Autoregressive Heuristics) を提案する。
論文 参考訳(メタデータ) (2025-05-19T05:35:30Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。
我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。
FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-05T03:28:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。