論文の概要: SAISA: Towards Multimodal Large Language Models with Both Training and Inference Efficiency
- arxiv url: http://arxiv.org/abs/2502.02458v1
- Date: Tue, 04 Feb 2025 16:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:16.989597
- Title: SAISA: Towards Multimodal Large Language Models with Both Training and Inference Efficiency
- Title(参考訳): SAISA:学習効率と推論効率を両立した多モーダル大言語モデルを目指して
- Authors: Qianhao Yuan, Yanjiang Liu, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun,
- Abstract要約: トレーニングと推論の効率を両立させる新しいアーキテクチャであるSAISAを紹介する。
LLaVA-1.5と同じ構成で、SAISAは推測FLOPを66%削減し、トレーニング予算を26%削減した。
- 参考スコア(独自算出の注目度): 47.03718208259308
- License:
- Abstract: Multimodal Large Language Models (MLLMs) mainly fall into two architectures, each involving a trade-off between training and inference efficiency: embedding space alignment (e.g., LLaVA-1.5) is inefficient during inference, while cross-attention space alignment (e.g., Flamingo) is inefficient in training. In this paper, we compare these two architectures and identify the key factors for building efficient MLLMs. A primary difference between them lies in how attention is applied to visual tokens, particularly in their interactions with each other. To investigate whether attention among visual tokens is necessary, we propose a new self-attention mechanism, NAAViT (\textbf{N}o \textbf{A}ttention \textbf{A}mong \textbf{Vi}sual \textbf{T}okens), which eliminates this type of attention. Our pilot experiment on LLaVA-1.5 shows that attention among visual tokens is highly redundant. Based on these insights, we introduce SAISA (\textbf{S}elf-\textbf{A}ttention \textbf{I}nput \textbf{S}pace \textbf{A}lignment), a novel architecture that enhance both training and inference efficiency. SAISA directly aligns visual features with the input spaces of NAAViT self-attention blocks, reducing computational overhead in both self-attention blocks and feed-forward networks (FFNs). Using the same configuration as LLaVA-1.5, SAISA reduces inference FLOPs by 66\% and training budget by 26\%, while achieving superior performance in terms of accuracy. Comprehensive ablation studies further validate the effectiveness of SAISA across various LLMs and visual encoders. The code and model will be publicly available at https://github.com/icip-cas/SAISA.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、主にトレーニングと推論効率のトレードオフを含む2つのアーキテクチャに分類される: 埋め込み空間アライメント(例えば、LLaVA-1.5)は推論時に非効率であり、クロスアテンション空間アライメント(例えば、フラミンゴ)はトレーニングにおいて非効率である。
本稿では,これらの2つのアーキテクチャを比較し,効率的なMLLMを構築する上での鍵となる要素を同定する。
両者の主な違いは、視覚的トークンにどのように注意が適用されるか、特に相互に相互作用することにある。
視覚的トークン間の注意が必要かどうかを調べるために,NAAViT(\textbf{N}o \textbf{A}ttention \textbf{A}mong \textbf{Vi}sual \textbf{T}okens)という新たな自己注意機構を提案する。
LLaVA-1.5のパイロット実験では、視覚トークンの注意は極めて冗長であることがわかった。
これらの知見に基づき,SAISA(\textbf{S}elf-\textbf{A}ttention \textbf{I}nput \textbf{S}pace \textbf{A}lignment)を導入する。
SAISAは、視覚的特徴とNAAViT自己注意ブロックの入力空間を直接整列し、自己注意ブロックとフィードフォワードネットワーク(FFN)の計算オーバーヘッドを低減する。
LLaVA-1.5と同じ構成で、SAISAは推論FLOPを66\%削減し、トレーニング予算を26\%削減し、精度で優れた性能を達成する。
包括的アブレーション研究により、様々なLLMおよび視覚エンコーダにおけるSAISAの有効性がさらに検証された。
コードとモデルはhttps://github.com/icip-cas/SAISAで公開される。
関連論文リスト
- ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のない特別なトークン(セパレータ)は、意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグイン・アンド・プレイのフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
選択トークン保持やウィンドウベースアテンションを含む既存の手法では、効率は向上するが、将来のテキスト生成に必要な重要なトークンを破棄するリスクがある。
トークンを破棄するのではなく、重要でないトークンのメモリと計算負荷を削減し、トークンロスを伴わずにLCM効率を向上させるアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。
しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。
PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2024-10-09T07:13:22Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Towards Joint Intent Detection and Slot Filling via Higher-order
Attention [47.78365472691051]
Intent Detection (ID) と Slot fill (SF) は、音声言語理解(SLU)における2つの主要なタスクである。
本稿では,文脈的およびチャネル的両線的アテンション分布を利用したバイリニアアテンションブロックを提案する。
我々のアプローチは最先端のアプローチと比較して改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-18T09:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。