Fugu-MT 論文翻訳(概要): LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models

論文の概要: LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2502.02406v1
Date: Tue, 04 Feb 2025 15:24:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:56.28036
Title: LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models
Title（参考訳）: LV-XAttn:マルチモーダル大言語モデルにおける長期視覚入力のための分散クロスアテンション
Authors: Tzu-Tao Chang, Shivaram Venkataraman,
Abstract要約: LV-XAttnは,通信オーバーヘッドを最小限に抑えた,分散的かつ正確なクロスアテンション機構である。 LV-XAttnは、既存のアプローチと比較して最大5.58$times$ end-to-endのスピードアップを実現していることを示す。
参考スコア（独自算出の注目度）: 1.3943553944889038
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-attention is commonly adopted in multimodal large language models (MLLMs) for integrating visual information into the language backbone. However, in applications with large visual inputs, such as video understanding, processing a large number of visual tokens in cross-attention layers leads to high memory demands and often necessitates distributed computation across multiple GPUs. Existing distributed attention mechanisms face significant communication overheads, making cross-attention layers a critical bottleneck for efficient training and inference of MLLMs. To address this, we propose LV-XAttn, a distributed, exact cross-attention mechanism with minimal communication overhead. We observe that in applications involving large visual inputs the size of the query block is typically much smaller than that of the key-value blocks. Thus, in LV-XAttn we keep the large key-value blocks locally on each GPU and exchange smaller query blocks across GPUs. We also introduce an efficient activation recomputation technique enabling support for longer visual context. We theoretically analyze the communication benefits of LV-XAttn and show that it can achieve speedups for a wide range of models. Our evaluations with mPLUG-Owl3 and OpenFlamingo models find that LV-XAttn achieves up to 5.58$\times$ end-to-end speedup compared to existing approaches.
Abstract（参考訳）: クロスアテンションは、視覚情報を言語バックボーンに統合するためのマルチモーダルな大規模言語モデル(MLLM)で一般的に採用されている。しかし、ビデオ理解のような大きな視覚的入力を持つアプリケーションでは、多数の視覚的トークンをクロスアテンション層で処理することで高いメモリ要求が生じ、複数のGPUに分散計算を必要とすることが多い。既存の分散注意機構は重要な通信オーバーヘッドに直面しており、MLLMの効率的なトレーニングと推論において、クロスアテンション層が重要なボトルネックとなっている。そこで本稿では,通信オーバーヘッドを最小限に抑えた分散的,正確なクロスアテンション機構であるLV-XAttnを提案する。大規模な視覚入力を含むアプリケーションでは、クエリブロックのサイズは、通常キー値ブロックよりもはるかに小さい。したがって、LV-XAttnでは、各GPU上で大きなキー値ブロックをローカルに保持し、GPU間でより小さなクエリブロックを交換します。また、より長い視覚的コンテキストをサポートするための効率的なアクティベーション再計算手法も導入する。理論的にLV-XAttnの通信利点を解析し,幅広いモデルに対して高速化を実現することを示す。 mPLUG-Owl3 と OpenFlamingo モデルによる評価では,LV-XAttn が既存手法と比較して最大5.58$\times$ end-to-end の高速化を達成した。

関連論文リスト

BlindSight: Harnessing Sparsity for Efficient VLMs [4.756688231351083]
BlindSightは、入力テンプレート認識型注意空間マスクを用いてVLM推論を最適化するためのトレーニング不要なアプローチである。 BlindSightは、多くの評価されたマルチイメージ理解ベンチマークにおいて、オリジナルのモデルと比較して平均で32%-41%のFLOPを -2%-+2%の精度で削減する。
論文参考訳（メタデータ） (2025-07-11T23:15:30Z)
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。 20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文参考訳（メタデータ） (2025-03-27T09:31:35Z)
Beyond Token Compression: A Training-Free Reduction Framework for Efficient Visual Processing in MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)は通常、デコーダのみまたはクロスアテンションアーキテクチャに基づいている。視覚トークンに対する大規模な自己アテンションとFFN操作により、計算資源が大幅に高くなる。本稿では,デコーダのみのMLLMにおいて,これらのコストのかかる操作の必要性を調査するための新しい分析フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-31T11:09:16Z)
HiMix: Reducing Computational Complexity in Large Vision-Language Models [16.33839330391886]
計算複雑性の主なボトルネックの1つは、モデル計算における冗長な視覚系列の関与である。混合注意のための階層型視覚注入(HiMix)と呼ばれる新しい階層型視覚言語相互作用機構を提案する。 HiMixでは、言語シーケンスのみが完全な前方伝播を行い、視覚シーケンスは各言語デコーダ層内の特定の段階で言語と相互作用する。
論文参考訳（メタデータ） (2025-01-17T17:41:47Z)
Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference [14.805702987440512]
我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
論文参考訳（メタデータ） (2024-12-06T11:29:32Z)
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。 i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文参考訳（メタデータ） (2024-12-04T13:56:44Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文参考訳（メタデータ） (2024-11-11T02:47:05Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文参考訳（メタデータ） (2024-08-01T17:57:12Z)
X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。 X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文参考訳（メタデータ） (2024-05-29T17:59:58Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。 VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文参考訳（メタデータ） (2022-11-21T18:22:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。