論文の概要: Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM
Finetuning
- arxiv url: http://arxiv.org/abs/2312.11420v1
- Date: Mon, 18 Dec 2023 18:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 18:53:31.070946
- Title: Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM
Finetuning
- Title(参考訳): 注意のチューニング層ノルム:効率的なマルチモーダルllm微調整に向けて
- Authors: Bingchen Zhao, Haoqin Tu, Chen Wei, Jieru Mei, Cihang Xie
- Abstract要約: 本稿では,Large Language Model(LLM)をMLLM(Multi-Modal Large Language Model)に変換するための効率的な戦略を提案する。
強いパフォーマンスを得るためにLayerNormをチューニングする。
フルパラメータファインタニングやLoRAといった他のチューニングアプローチと比較した場合、その効率性に対するメリットはかなり大きい。
- 参考スコア(独自算出の注目度): 34.49906405191175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an efficient strategy to transform Large Language
Models (LLMs) into Multi-Modal Large Language Models (MLLMs). By
conceptualizing this transformation as a domain adaptation process, i.e.,
transitioning from text understanding to embracing multiple modalities, we
intriguingly note that, within each attention block, tuning LayerNorm suffices
to yield strong performance. Moreover, when benchmarked against other tuning
approaches like full parameter finetuning or LoRA, its benefits on efficiency
are substantial. For example, when compared to LoRA on a 13B model scale,
performance can be enhanced by an average of over 20% across five multi-modal
tasks, and meanwhile, results in a significant reduction of trainable
parameters by 41.9% and a decrease in GPU memory usage by 17.6%. On top of this
LayerNorm strategy, we showcase that selectively tuning only with
conversational data can improve efficiency further. Beyond these empirical
outcomes, we provide a comprehensive analysis to explore the role of LayerNorm
in adapting LLMs to the multi-modal domain and improving the expressive power
of the model.
- Abstract(参考訳): 本稿では,Large Language Models(LLM)をMLLM(Multi-Modal Large Language Models)に変換するための効率的な戦略を提案する。
この変換を、テキスト理解から複数のモダリティの受け入れへと移行するドメイン適応プロセスとして概念化することで、各アテンションブロック内で、レイヤノルムのチューニングが強力なパフォーマンスをもたらすことに興味深いことに気付きます。
さらに、フルパラメータファインタニングやLoRAといった他のチューニングアプローチと比較した場合、その効率性に対するメリットはかなり大きい。
例えば、13BモデルスケールのLoRAと比較して、パフォーマンスは5つのマルチモーダルタスクで平均20%以上向上し、トレーニング可能なパラメータを41.9%削減し、GPUメモリ使用率を17.6%削減することができる。
このLayerNorm戦略に加えて、対話データのみを選択的にチューニングすることで、効率をさらに向上できることを示す。
これらの経験的結果の他に、マルチモーダル領域へのLLMの適用とモデルの表現力向上におけるLayerNormの役割を総合的に分析する。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
金融を含むドメイン固有の文脈における大規模言語モデル(LLM)の適用について検討する。
ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略であるとは限らない。
代わりに、マルチタスクの微調整はパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。
TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文 参考訳(メタデータ) (2024-09-22T21:08:37Z) - ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation [4.07532985236519]
本研究では,共有低ランク適応(ShareLoRA)を実装することにより,事前学習言語モデル(PLM)に対するPEFT(Efficient Fine Tuning)の最適化手法を提案する。
異なるレイヤにShareLoRAを戦略的にデプロイし、それを自己アテンションレイヤのクエリ、キー、バリューコンポーネントに適用することにより、トレーニングパラメータの数とメモリ使用量を大幅に削減します。
この結果から、ShareLoRAはパラメータ効率を効果的に向上し、異なる言語モデルアーキテクチャにおけるスケーラブルで高品質な性能を確保します。
論文 参考訳(メタデータ) (2024-06-16T02:52:28Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。