論文の概要: LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.02406v1
- Date: Tue, 04 Feb 2025 15:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:26.818998
- Title: LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models
- Title(参考訳): LV-XAttn:マルチモーダル大言語モデルにおける長期視覚入力のための分散クロスアテンション
- Authors: Tzu-Tao Chang, Shivaram Venkataraman,
- Abstract要約: LV-XAttnは,通信オーバーヘッドを最小限に抑えた,分散的かつ正確なクロスアテンション機構である。
LV-XAttnは、既存のアプローチと比較して最大5.58$times$ end-to-endのスピードアップを実現していることを示す。
- 参考スコア(独自算出の注目度): 1.3943553944889038
- License:
- Abstract: Cross-attention is commonly adopted in multimodal large language models (MLLMs) for integrating visual information into the language backbone. However, in applications with large visual inputs, such as video understanding, processing a large number of visual tokens in cross-attention layers leads to high memory demands and often necessitates distributed computation across multiple GPUs. Existing distributed attention mechanisms face significant communication overheads, making cross-attention layers a critical bottleneck for efficient training and inference of MLLMs. To address this, we propose LV-XAttn, a distributed, exact cross-attention mechanism with minimal communication overhead. We observe that in applications involving large visual inputs the size of the query block is typically much smaller than that of the key-value blocks. Thus, in LV-XAttn we keep the large key-value blocks locally on each GPU and exchange smaller query blocks across GPUs. We also introduce an efficient activation recomputation technique enabling support for longer visual context. We theoretically analyze the communication benefits of LV-XAttn and show that it can achieve speedups for a wide range of models. Our evaluations with mPLUG-Owl3 and OpenFlamingo models find that LV-XAttn achieves up to 5.58$\times$ end-to-end speedup compared to existing approaches.
- Abstract(参考訳): クロスアテンションは、視覚情報を言語バックボーンに統合するためのマルチモーダルな大規模言語モデル(MLLM)で一般的に採用されている。
しかし、ビデオ理解のような大きな視覚的入力を持つアプリケーションでは、多数の視覚的トークンをクロスアテンション層で処理することで高いメモリ要求が生じ、複数のGPUに分散計算を必要とすることが多い。
既存の分散注意機構は重要な通信オーバーヘッドに直面しており、MLLMの効率的なトレーニングと推論において、クロスアテンション層が重要なボトルネックとなっている。
そこで本稿では,通信オーバーヘッドを最小限に抑えた分散的,正確なクロスアテンション機構であるLV-XAttnを提案する。
大規模な視覚入力を含むアプリケーションでは、クエリブロックのサイズは、通常キー値ブロックよりもはるかに小さい。
したがって、LV-XAttnでは、各GPU上で大きなキー値ブロックをローカルに保持し、GPU間でより小さなクエリブロックを交換します。
また、より長い視覚的コンテキストをサポートするための効率的なアクティベーション再計算手法も導入する。
理論的にLV-XAttnの通信利点を解析し,幅広いモデルに対して高速化を実現することを示す。
mPLUG-Owl3 と OpenFlamingo モデルによる評価では,LV-XAttn が既存手法と比較して最大5.58$\times$ end-to-end の高速化を達成した。
関連論文リスト
- Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - TroL: Traversal of Layers for Large Language and Vision Models [39.31786216877119]
大言語とビジョンモデル(LLVM)は、大言語モデル(LLM)の一般化力によって駆動されている。
GPT-4VのようなクローズドソースLLVMと互換性のある既存のオープンソースLLVMは、大きすぎると考えられていることが多い。
1.8B, 3.8B, 7B LLMモデルサイズ, Traversal of Layers (TroL) を持つLLVMファミリーを新たに提案する。
我々は、TroLが単純な層トラバースアプローチを採用しているが、より大きなモデルサイズを持つオープンソースのLLVMよりも効率的に性能を向上することを示した。
論文 参考訳(メタデータ) (2024-06-18T03:42:00Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - A Vertex Cut based Framework for Load Balancing and Parallelism
Optimization in Multi-core Systems [15.913119724815733]
機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。
高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに悩まされることが多い。
マルチコアシステムにおけるデータ通信の削減と,これらのアプリケーションのスケーラビリティと性能向上のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T07:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。