論文の概要: ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
- arxiv url: http://arxiv.org/abs/2602.07574v1
- Date: Sat, 07 Feb 2026 14:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.703859
- Title: ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
- Title(参考訳): ViCA:視覚のみのクロスアテンションによる効率的なマルチモーダルLCM
- Authors: Wenjie Liu, Hao Wu, Xin Qiu, Yingqi Fan, Yihan Zhang, Anhao Zhao, Yunpu Ma, Xiaoyu Shen,
- Abstract要約: ViCAは最小限のMLLMアーキテクチャであり、視覚トークンはすべての自己注意層とフィードフォワード層をバイパスし、選択された層での疎相互注意によってのみテキストと対話する。
ViCAは、ベースライン精度の98%を保ちながら、視覚面を4%に減らし、常に優れた性能と効率のトレードオフを達成している。
- 参考スコア(独自算出の注目度): 22.397648349603696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern multimodal large language models (MLLMs) adopt a unified self-attention design that processes visual and textual tokens at every Transformer layer, incurring substantial computational overhead. In this work, we revisit the necessity of such dense visual processing and show that projected visual embeddings are already well-aligned with the language space, while effective vision-language interaction occurs in only a small subset of layers. Based on these insights, we propose ViCA (Vision-only Cross-Attention), a minimal MLLM architecture in which visual tokens bypass all self-attention and feed-forward layers, interacting with text solely through sparse cross-attention at selected layers. Extensive evaluations across three MLLM backbones, nine multimodal benchmarks, and 26 pruning-based baselines show that ViCA preserves 98% of baseline accuracy while reducing visual-side computation to 4%, consistently achieving superior performance-efficiency trade-offs. Moreover, ViCA provides a regular, hardware-friendly inference pipeline that yields over 3.5x speedup in single-batch inference and over 10x speedup in multi-batch inference, reducing visual grounding to near-zero overhead compared with text-only LLMs. It is also orthogonal to token pruning methods and can be seamlessly combined for further efficiency gains. Our code is available at https://github.com/EIT-NLP/ViCA.
- Abstract(参考訳): 現代のマルチモーダル大言語モデル(MLLM)は、トランスフォーマーの各層で視覚的およびテキスト的トークンを処理し、かなりの計算オーバーヘッドをもたらす、統一的な自己注意設計を採用する。
本研究では,このような濃密な視覚処理の必要性を再考し,投影された視覚埋め込みがすでに言語空間と整合していることを示す。
これらの知見に基づいて、視覚トークンがすべての自己注意層やフィードフォワード層をバイパスし、選択した層での疎横断的関心層のみを介してテキストと対話する最小限のMLLMアーキテクチャであるViCA(Vision-only Cross-Attention)を提案する。
3つのMLLMバックボーン、9つのマルチモーダルベンチマーク、26のプルーニングベースラインにわたる広範囲な評価は、ViCAが98%のベースライン精度を維持しながら、ビジュアルサイドの計算を4%に削減し、優れた性能と効率のトレードオフを一貫して達成していることを示している。
さらに、ViCAは通常のハードウェアフレンドリーな推論パイプラインを提供し、単一のバッチ推論では3.5倍のスピードアップ、マルチバッチ推論では10倍以上のスピードアップを実現している。
トークンプルーニング法にも直交しており、さらなる効率向上のためにシームレスに組み合わせることができる。
私たちのコードはhttps://github.com/EIT-NLP/ViCA.comで公開されています。
関連論文リスト
- $\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs [26.779915891040236]
我々は,LLaVA-v1.5 7B上での視線関連注意計算の最大99%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークであるemphVisiPrunerを提案する。
さらに、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMのトレーニングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-10-20T06:40:17Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z) - LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models [18.489240454283834]
MLLMのためのLVP(Language-Guided Vision Token Pruning)を提案する。
LVPruningは、言語トークンとの相互作用に基づいて視覚トークンの重要性を計算するために、クロスアテンションモジュールを使用している。
実験により、LLaVA-1.5の中間層によって、LVPruningは視覚トークンの90%を効果的に削減できることが示された。
論文 参考訳(メタデータ) (2025-01-23T13:31:51Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。