論文の概要: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init
Attention
- arxiv url: http://arxiv.org/abs/2303.16199v2
- Date: Wed, 14 Jun 2023 17:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 01:37:43.694490
- Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init
Attention
- Title(参考訳): LLaMA-Adapter:ゼロ入力型言語モデルの効率的な微調整
- Authors: Renrui Zhang, Jiaming Han, Chris Liu, Peng Gao, Aojun Zhou, Xiangfei
Hu, Shilin Yan, Pan Lu, Hongsheng Li, Yu Qiao
- Abstract要約: LLaMA-Adapterは命令追従モデルにLLaMAを効率よく微調整する方法である。
フリーズされたLLaMA 7Bモデルで1.2Mの学習可能なパラメータを導入し、8A100 GPUの微調整には1時間未満の費用がかかる。
- 参考スコア(独自算出の注目度): 52.6718081345361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LLaMA-Adapter, a lightweight adaption method to efficiently
fine-tune LLaMA into an instruction-following model. Using 52K self-instruct
demonstrations, LLaMA-Adapter only introduces 1.2M learnable parameters upon
the frozen LLaMA 7B model, and costs less than one hour for fine-tuning on 8
A100 GPUs. Specifically, we adopt a set of learnable adaption prompts, and
prepend them to the word tokens at higher transformer layers. Then, a
zero-initialized attention mechanism with zero gating is proposed, which
adaptively injects the new instructional cues into LLaMA, while effectively
preserves its pre-trained knowledge. With our efficient training, LLaMA-Adapter
can generate high-quality responses, comparable to Alpaca with fully fine-tuned
7B parameters. Besides language commands, our approach can be simply extended
to multi-modal instructions for learning image-conditioned LLaMA model, which
achieves superior reasoning performance on ScienceQA and COCO Caption
benchmarks. Furthermore, we also evaluate the zero-initialized attention
mechanism for fine-tuning other pre-trained models (ViT, RoBERTa) on
traditional vision and language tasks, demonstrating the superior
generalization capacity of our approach. Code is released at
https://github.com/OpenGVLab/LLaMA-Adapter.
- Abstract(参考訳): 命令追従モデルにLLaMAを効率よく微調整する軽量適応手法であるLLaMA-Adapterを提案する。
LLaMA-Adapterは52Kの自己命令型デモを使用して、凍結したLLaMA 7Bモデルで1.2Mの学習可能なパラメータを導入し、8A100 GPUの微調整には1時間未満の費用がかかる。
具体的には、学習可能な適応プロンプトを採用し、より高いトランスフォーマー層で単語トークンにそれらを強調する。
次に,新しい指導手がかりをラマに適応的に注入し,事前学習した知識を効果的に保持する,ゼロゲーティングによるゼロ初期化注意機構を提案する。
効率的なトレーニングにより、LLaMA-Adapterは、完全に微調整された7Bパラメータを持つAlpacaに匹敵する高品質な応答を生成することができる。
言語コマンドの他に,ScienceQA や COCO Caption のベンチマークにおいて,より優れた推論性能を実現する画像条件付き LLaMA モデルを学習するためのマルチモーダル命令にも簡単に拡張できる。
さらに,従来の視覚や言語タスクに対して,事前学習した他のモデル (ViT, RoBERTa) を微調整するゼロ初期化アテンション機構も評価し,提案手法のより優れた一般化能力を示す。
コードはhttps://github.com/OpenGVLab/LLaMA-Adapterで公開されている。
関連論文リスト
- Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction [24.675876324457747]
Adapter、Prefix-tuning、LoRAのような既存のLPMを微調整する方法は、LSMの生来の能力を損なう可能性がある。
本稿では,LLaMA-Excitorを提案する。LLaMA-Excitorは軽量な手法で,LLMの潜在能力を刺激し,徐々に価値ある情報に注意を払って指示に従う。
LLaMA-Excitorは、重要な改善を達成しつつ基本的な機能を維持する唯一の方法である。
論文 参考訳(メタデータ) (2024-04-01T04:39:21Z) - LLaMA Pro: Progressive LLaMA with Block Expansion [66.39213657252279]
本稿では,トランスフォーマーブロックを拡張したLarge Language Models (LLM) の事前学習手法を提案する。
我々は,新たなコーパスのみを用いて拡張ブロックをチューニングし,大惨な忘れをすることなく,モデル知識を効率的に,効果的に改善する。
本稿では,LLaMA2-7Bの多元的基礎モデルであるLLaMA Pro-8.3Bのコードと数学のコーパスについて実験する。
論文 参考訳(メタデータ) (2024-01-04T18:59:12Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model [60.22693761583569]
パラメータ効率のよいビジュアルインストラクションモデルであるLLaMA-Adapter V2を提案する。
具体的には、より学習可能なパラメータをアンロックすることで、LLaMA-Adapterを初めて拡張する。
第3に、画像テキストペアと命令追従データの合同トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2023-04-28T17:59:25Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。