論文の概要: Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2403.15226v2
- Date: Wed, 5 Jun 2024 05:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:40:47.866600
- Title: Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
- Title(参考訳): すべての注意が必要でない:マルチモーダル大言語モデルのパラメータと計算効率向上学習
- Authors: Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
- 参考スコア(独自算出の注目度): 73.48675708831328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel parameter and computation efficient tuning method for Multi-modal Large Language Models (MLLMs), termed Efficient Attention Skipping (EAS). Concretely, we first reveal that multi-head attentions (MHAs), the main computational overhead of MLLMs, are often redundant to downstream tasks. Based on this observation, EAS evaluates the attention redundancy and skips the less important MHAs to speed up inference. Besides, we also propose a novel propagation-of-information adapter (PIA) to serve the attention skipping of EAS and keep parameter efficiency, which can be further re-parameterized into feed-forward networks (FFNs) for zero-extra latency. To validate EAS, we apply it to a recently proposed MLLM called LaVIN and a classic VL pre-trained model called METER, and conduct extensive experiments on a set of benchmarks. The experiments show that EAS not only retains high performance and parameter efficiency, but also greatly speeds up inference speed. For instance, LaVIN-EAS can obtain 89.98\% accuracy on ScineceQA while speeding up inference by 2.2 times to LaVIN
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(MLLM)のための新しいパラメータと計算効率のチューニング手法を提案し,その手法をEAS(Efficient Attention Skipping)と呼ぶ。
具体的には、MLLMの主な計算オーバーヘッドであるマルチヘッドアテンション(MHA)が、ダウンストリームタスクに冗長であることを明らかにする。
この観測に基づいて、EASは注意冗長性を評価し、重要でないMHAをスキップして推論を高速化する。
また,新しい情報伝達アダプタ (PIA) を提案し,EASの注意スキップとパラメータ効率の維持を実現し,フィードフォワードネットワーク (FFN) に再パラメータ化することで,遅延をゼロにする。
EASを検証するために、最近提案されたLaVINと呼ばれるMLLMと、METERと呼ばれる古典的なVL事前学習モデルに適用し、一連のベンチマークで広範な実験を行う。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
例えば、LaVIN-EASはScineceQA上で89.98\%の精度を得ることができ、推論をLaVINに2.2倍速めることができる。
関連論文リスト
- EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。
TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文 参考訳(メタデータ) (2024-09-22T21:08:37Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [27.930351465266515]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - E-Sparse: Boosting the Large Language Model Inference through Entropy-based N:M Sparsity [6.434967516411846]
隠れ状態特徴の情報エントロピーをプルーニング計量設計、すなわちE-Sparseに導入する。
E-Sparseはチャネルの重要性を活用するために情報豊かさを使用し、さらにいくつかの新しいテクニックを取り入れて効果を発揮させる。
E-Sparseは、高密度モデル(最大1.53X)に対するモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できる。
論文 参考訳(メタデータ) (2023-10-24T15:27:15Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。