論文の概要: LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction
- arxiv url: http://arxiv.org/abs/2404.00913v1
- Date: Mon, 1 Apr 2024 04:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:26:11.494049
- Title: LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction
- Title(参考訳): LLaMA-Excitor:間接的特徴相互作用による一般的な指導チューニング
- Authors: Bo Zou, Chao Yang, Yu Qiao, Chengbin Quan, Youjian Zhao,
- Abstract要約: Adapter、Prefix-tuning、LoRAのような既存のLPMを微調整する方法は、LSMの生来の能力を損なう可能性がある。
本稿では,LLaMA-Excitorを提案する。LLaMA-Excitorは軽量な手法で,LLMの潜在能力を刺激し,徐々に価値ある情報に注意を払って指示に従う。
LLaMA-Excitorは、重要な改善を達成しつつ基本的な機能を維持する唯一の方法である。
- 参考スコア(独自算出の注目度): 24.675876324457747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods to fine-tune LLMs, like Adapter, Prefix-tuning, and LoRA, which introduce extra modules or additional input sequences to inject new skills or knowledge, may compromise the innate abilities of LLMs. In this paper, we propose LLaMA-Excitor, a lightweight method that stimulates the LLMs' potential to better follow instructions by gradually paying more attention to worthwhile information. Specifically, the LLaMA-Excitor does not directly change the intermediate hidden state during the self-attention calculation of the transformer structure. We designed the Excitor block as a bypass module for the similarity score computation in LLMs' self-attention to reconstruct keys and change the importance of values by learnable prompts. LLaMA-Excitor ensures a self-adaptive allocation of additional attention to input instructions, thus effectively preserving LLMs' pre-trained knowledge when fine-tuning LLMs on low-quality instruction-following datasets. Furthermore, we unify the modeling of multi-modal tuning and language-only tuning, extending LLaMA-Excitor to a powerful visual instruction follower without the need for complex multi-modal alignment. Our proposed approach is evaluated in language-only and multi-modal tuning experimental scenarios. Notably, LLaMA-Excitor is the only method that maintains basic capabilities while achieving a significant improvement (+6%) on the MMLU benchmark. In the visual instruction tuning, we achieve a new state-of-the-art image captioning performance of 157.5 CIDEr on MSCOCO, and a comparable performance (88.39%) on ScienceQA to cutting-edge models with more parameters and extensive vision-language pertaining.
- Abstract(参考訳): Adapter、Prefix-tuning、LoRAのように、新しいスキルや知識を注入するために追加のモジュールや追加の入力シーケンスを導入する既存のLLMの微調整方法は、LLMの生来の能力を損なう可能性がある。
本稿では,LLaMA-Excitorを提案する。LLaMA-Excitorは軽量な手法で,LLMがより有意義な情報に徐々に注意を払って指示に従うことができる。
具体的には、LLaMA-Excitorは変圧器構造の自己アテンション計算において、中間隠れ状態を直接変更しない。
我々は,LLMの自己アテンションにおける類似度スコア計算のためのバイパスモジュールとしてExcitorブロックを設計し,キーを再構築し,学習可能なプロンプトによって値の重要性を変化させた。
LLaMA-Excitorは、入力命令に付加的な注意を自己適応的に割り当てることを保証する。
さらに、複雑なマルチモーダルアライメントを必要とせず、LLaMA-Excitorを強力な視覚指示追従者に拡張し、マルチモーダルチューニングと言語のみのチューニングのモデリングを統一する。
提案手法は言語のみおよびマルチモーダル・チューニング実験シナリオで評価される。
特に、LLaMA-ExcitorはMMLUベンチマークで大幅な改善(+6%)を達成しつつ、基本的な機能を維持する唯一の方法である。
MSCOCOにおける157.5 CIDErの最新の画像キャプション性能とScienceQAにおける88.39%の性能を、より多くのパラメータと広範囲な視覚言語を含む最先端モデルに対して実現した。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文 参考訳(メタデータ) (2023-10-02T13:53:03Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。