論文の概要: VisMMOE: Exploiting Visual-Expert Affinity for Efficient Visual-Language MoE Offloading
- arxiv url: http://arxiv.org/abs/2605.05899v1
- Date: Thu, 07 May 2026 09:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.653569
- Title: VisMMOE: Exploiting Visual-Expert Affinity for Efficient Visual-Language MoE Offloading
- Title(参考訳): VisMMOE: 効率的なVisual-Language MoEオフロードのためのVisual-Expert Affinityのエクスプロイト
- Authors: Cheng Xu, Xiaofeng Hou, Jiacheng Liu, Chao Li,
- Abstract要約: 本稿では,単一のシステムインサイト上に構築されたVL-MoEオフロードシステムであるVisMMoEを紹介する。
VisMMoEはエンドツーエンドの推論性能を最大2.68倍と1.61倍に改善した。
- 参考スコア(独自算出の注目度): 8.638990780011982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale vision-language mixture-of-experts (VL-MoE) models provide strong multimodal capability, but efficient deployment on memory-constrained platforms remains difficult. Existing MoE offloading systems are largely designed for text-centric workloads and become much less effective for visual-heavy inputs, where large numbers of visual tokens induce broader and less predictable expert accesses. We present VisMMoE, a VL-MoE offloading system built on a single systems insight: pruning redundant visual tokens can improve offloading not only by reducing computation, but also by reshaping expert demand. We refer to this effect as \textit{visual-expert affinity}: token pruning makes expert accesses more concentrated within layers and more stable across layers, producing a smaller and more predictable expert working set. Guided by this insight, VisMMoE combines affinity-aware token compression, lookahead expert prediction, and cache/pipeline orchestration to improve expert locality and prefetch effectiveness under tight memory budgets. We implement VisMMoE on multiple frameworks and evaluate it on representative VL-MoE models and benchmarks. VisMMoE improves end-to-end inference performance by up to 2.68x and 1.61x, respectively, over strong baselines for today's VL-MoE deployments while maintaining competitive accuracy.
- Abstract(参考訳): 大規模視覚言語混在型(VL-MoE)モデルは、強力なマルチモーダル機能を提供するが、メモリ制約のあるプラットフォームへの効率的なデプロイは困難である。
既存のMoEオフローディングシステムは、主にテキスト中心のワークロード用に設計されており、大量のビジュアルトークンがより広範囲で予測しにくい専門家アクセスを誘導する視覚的な入力に対して、はるかに効果が低い。
本稿では,VL-MoEオフローディングシステムであるVisMMoEについて述べる。冗長な視覚トークンのプルーニングは,計算量を削減するだけでなく,専門家の要求を再構築することで,オフローディングを改善することができる。
トークンプルーニングは、専門家のアクセスを層内でより集中し、層を横断してより安定したものにし、より小さく予測可能な専門家の作業セットを生み出します。
この洞察に導かれたVisMMoEは、アフィニティ対応トークン圧縮、ルックアヘッドの専門家予測、キャッシュ/パイプラインオーケストレーションを組み合わせて、専門家のローカリティを改善し、厳しいメモリ予算下でのプリフェッチの有効性を高める。
複数のフレームワーク上でVisMMoEを実装し,VL-MoEモデルとベンチマークで評価する。
VisMMoEは、競合精度を維持しながら、今日のVL-MoEデプロイメントの強力なベースラインを越えて、エンドツーエンドの推論性能を最大2.68倍と1.61倍に改善する。
関連論文リスト
- POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs [64.72502363697518]
POINTS-Longは、人間の視覚システムにインスパイアされた動的ビジュアルトークンスケーリングを備えた、ネイティブなデュアルモードMLLMである。
我々の研究は、将来のMLLMの設計に関する新たな洞察を提供し、適応的で効率的な長期的視覚的理解の基礎を築いた。
論文 参考訳(メタデータ) (2026-04-13T15:38:22Z) - FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning [16.753299634529736]
マルチモーダル・大規模言語モデル (MLLM) は優れた性能を達成しているが、高解像度の視覚入力は視覚トークンの長いシーケンスと相当な推論遅延をもたらす。
冗長なビジュアルトークンの削減は、パフォーマンスを維持しながら計算/メモリの負担を軽減するために重要であり、リソース制約やレイテンシに敏感なシナリオでのMLLMデプロイメントを可能にする。
本稿では,Fast Multimodal Mixture-of-Experts (FastMMoE)を提案する。
論文 参考訳(メタデータ) (2025-11-22T02:25:00Z) - ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Completion [34.49091265125411]
マルチモーダル知識グラフ(MKG)は、視覚的およびテキスト的モダリティを取り入れ、よりリッチで表現力のあるエンティティ表現を可能にすることで、従来の知識グラフを拡張している。
既存のMKGは、しばしば不完全性に悩まされ、下流のタスクにおいてその効果を阻害する。
大規模言語モデル (LLMs) は知識グラフ補完 (KGC) を約束している。
MKGCのための効率的な軽量マルチモーダル言語モデル(ELMM)を提案する。
論文 参考訳(メタデータ) (2025-10-19T08:29:43Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Mixture of Nested Experts: Adaptive Processing of Visual Tokens [49.43920770789789]
Vision Transformer (ViT) ベースのモデルは、固有の冗長性に乗じず、より高い計算コストをもたらす。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T13:19:31Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - EdgeMoE: Empowering Sparse Large Language Models on Mobile Devices [3.3947808667959536]
EdgeMoEは、Mix-of-expert (MoE) LLM用のオンデバイス推論エンジンである。
非専門家の重みはデバイスメモリに保持されるが、専門家の重みは外部ストレージに保持され、アクティベート時にのみメモリにフェッチされる。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。