論文の概要: LinMU: Multimodal Understanding Made Linear
- arxiv url: http://arxiv.org/abs/2601.01322v1
- Date: Sun, 04 Jan 2026 01:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.227846
- Title: LinMU: Multimodal Understanding Made Linear
- Title(参考訳): LinMU:Multimodal Understanding Made Linear
- Authors: Hongjie Wang, Niraj K. Jha,
- Abstract要約: 現代の視覚言語モデル(VLM)は印象的な性能を達成するが、自己注意の二次的な複雑さによって制限される。
本稿では,2次複雑モジュールを使わずに線形複雑性を実現するVLM設計であるLinMUを紹介する。
また,LinMUは教師モデルの性能にマッチするが,TTFT(Time-To-First-Token)を最大2.7$times$に削減し,トークンスループットを最大9.0$times$まで改善することを示した。
- 参考スコア(独自算出の注目度): 5.317763266797949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Vision-Language Models (VLMs) achieve impressive performance but are limited by the quadratic complexity of self-attention, which prevents their deployment on edge devices and makes their understanding of high-resolution images and long-context videos prohibitively expensive. To address this challenge, we introduce LinMU (Linear-complexity Multimodal Understanding), a VLM design that achieves linear complexity without using any quadratic-complexity modules while maintaining the performance of global-attention-based VLMs. LinMU replaces every self-attention layer in the VLM with the M-MATE block: a dual-branch module that combines a bidirectional state-space model for global context (Flex-MA branch) with localized Swin-style window attention (Local-Swin branch) for adjacent correlations. To transform a pre-trained VLM into the LinMU architecture, we propose a three-stage distillation framework that (i) initializes both branches with self-attention weights and trains the Flex-MA branch alone, (ii) unfreezes the Local-Swin branch and fine-tunes it jointly with the Flex-MA branch, and (iii) unfreezes the remaining blocks and fine-tunes them using LoRA adapters, while regressing on hidden states and token-level logits of the frozen VLM teacher. On MMMU, TextVQA, LongVideoBench, Video-MME, and other benchmarks, LinMU matches the performance of teacher models, yet reduces Time-To-First-Token (TTFT) by up to 2.7$\times$ and improves token throughput by up to 9.0$\times$ on minute-length videos. Ablations confirm the importance of each distillation stage and the necessity of the two branches of the M-MATE block. The proposed framework demonstrates that state-of-the-art multimodal reasoning can be achieved without quadratic attention, thus opening up avenues for long-context VLMs that can deal with high-resolution images and long videos.
- Abstract(参考訳): 現代のビジョン・ランゲージ・モデル(VLM)は印象的なパフォーマンスを達成しているが、エッジデバイスへの展開を阻止し、高解像度の画像や長文ビデオの理解を違法に高価にする自己注意の二次的な複雑さによって制限されている。
この課題に対処するためにLinMU(Linear-complexity Multimodal Understanding)という,グローバルアテンションに基づくVLMの性能を維持しつつも,2次複雑度モジュールを使わずに線形複雑性を実現するVLM設計を提案する。
LinMUは、VLMのすべての自己アテンション層をM-MATEブロックに置き換える: グローバルコンテキスト(Flex-MAブランチ)のための双方向状態空間モデルと、隣接する相関のために局所的なSwinスタイルのウィンドウアテンション(Local-Swinブランチ)を組み合わせたデュアルブランチモジュール。
プレトレーニングVLMをLinMUアーキテクチャに変換するために,三段蒸留フレームワークを提案する。
(i)両枝を自重で初期化し、Flex-MAブランチのみを訓練する。
(ii)Local-Swinブランチをアンフリーズし、Flex-MAブランチと共同で微調整し、
3) 残ったブロックを解凍し,LoRAアダプタを用いて微調整すると同時に,隠れた状態と凍結したVLM教師のトークンレベルロジットに回帰する。
MMMU、TextVQA、LongVideoBench、Video-MMEなどのベンチマークでは、LinMUは教師モデルのパフォーマンスにマッチするが、TTFT(Time-To-First-Token)を最大2.7$\times$に下げ、トークンのスループットを最大9.0$\times$に改善している。
アブレーションにより, 各蒸留工程の重要性とM-MATEブロックの2つの分岐の必要性が確認された。
提案手法は,2次的な注意を払わずに,最先端のマルチモーダル推論が実現可能であることを示す。
関連論文リスト
- Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing [16.063514680699576]
MLLM(Multimodal large language model)は、3段階のパイプラインを通して視覚的理解を拡張する。
マルチモーダル前処理、特にビデオデコードがタイム・ツー・ファースト・トーケン(TTFT)を支配している
我々は、エンドツーエンドのMLLMパイプラインを共同で最適化する2つの補完設計であるFlashCodecとUnifiedServeを紹介する。
論文 参考訳(メタデータ) (2025-12-19T13:40:13Z) - InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs [52.24096832965001]
提案するプログレッシブ・ビジュアル・圧縮(PVC)法を中心としたMLLMであるLLaVA-UHD v3を提案する。
PVC法は、視覚変換器(ViT)にシームレスに統合して、効率的なネイティブ解像度符号化を可能にする。
ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
論文 参考訳(メタデータ) (2025-11-26T08:11:10Z) - Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs [25.13186579764434]
Sparse-to-Dense(StD)は、2つの異なるモジュールを統合する新しいデコード戦略である。
StDはチューニング不要のプラグイン・アンド・プレイのソリューションで、最大1.94$times$ビデオ処理のウォールタイムスピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-25T14:09:28Z) - MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention [61.025422435235456]
MMInferenceは、長文マルチモーダル入力のプリフィルステージを高速化する動的スパースアテンション手法である。
MMInferenceは, 精度を維持しつつ, 1Mトークンにおいて, プリフィルステージを最大8.3倍高速化することを示す。
論文 参考訳(メタデータ) (2025-04-22T17:59:51Z) - OneLLM: One Framework to Align All Modalities with Language [86.8818857465443]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。