論文の概要: Tailored-LLaMA: Optimizing Few-Shot Learning in Pruned LLaMA Models with Task-Specific Prompts
- arxiv url: http://arxiv.org/abs/2410.19185v1
- Date: Thu, 24 Oct 2024 22:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:50.659933
- Title: Tailored-LLaMA: Optimizing Few-Shot Learning in Pruned LLaMA Models with Task-Specific Prompts
- Title(参考訳): Tailored-LLaMA:タスク特化プロンプトを用いたプレナードLLaMAモデルのFew-Shot学習の最適化
- Authors: Danyal Aftab, Steven Davy,
- Abstract要約: 我々はタスク固有のデータセットを使用し、50億と40億のパラメータを持つ2つのプルーニングLLaMAモデルを微調整する。
本稿では,LLaMAモデルをタスク特異性と即効性という2つの制約の下で微調整する手法を提案する。
- 参考スコア(独自算出の注目度): 0.86325068644655
- License:
- Abstract: Large language models demonstrate impressive proficiency in language understanding and generation. Nonetheless, training these models from scratch, even the least complex billion-parameter variant demands significant computational resources rendering it economically impractical for many organizations. With large language models functioning as general-purpose task solvers, this paper investigates their task-specific fine-tuning. We employ task-specific datasets and prompts to fine-tune two pruned LLaMA models having 5 billion and 4 billion parameters. This process utilizes the pre-trained weights and focuses on a subset of weights using the LoRA method. One challenge in fine-tuning the LLaMA model is crafting a precise prompt tailored to the specific task. To address this, we propose a novel approach to fine-tune the LLaMA model under two primary constraints: task specificity and prompt effectiveness. Our approach, Tailored LLaMA initially employs structural pruning to reduce the model sizes from 7B to 5B and 4B parameters. Subsequently, it applies a carefully designed prompt specific to the task and utilizes the LoRA method to accelerate the fine-tuning process. Moreover, fine-tuning a model pruned by 50\% for less than one hour restores the mean accuracy of classification tasks to 95.68\% at a 20\% compression ratio and to 86.54\% at a 50\% compression ratio through few-shot learning with 50 shots. Our validation of Tailored LLaMA on these two pruned variants demonstrates that even when compressed to 50\%, the models maintain over 65\% of the baseline model accuracy in few-shot classification and generation tasks. These findings highlight the efficacy of our tailored approach in maintaining high performance with significantly reduced model sizes.
- Abstract(参考訳): 大規模な言語モデルは、言語理解と生成において素晴らしい習熟度を示している。
それでも、これらのモデルをスクラッチからトレーニングすることは、最も複雑な10億パラメータの変種でさえ、多くの組織にとって経済的に非現実的な計算資源を必要としている。
汎用タスクソルバとして機能する大規模言語モデルを用いて,タスク固有の微調整について検討する。
我々はタスク固有のデータセットを使用し、50億と40億のパラメータを持つ2つのプルーニングLLaMAモデルを微調整する。
このプロセスは事前訓練された重量を使い、LoRA法を用いて重量のサブセットに焦点を当てる。
LLaMAモデルを微調整する1つの課題は、特定のタスクに合わせて正確なプロンプトを作成することである。
そこで本研究では,LLaMAモデルをタスク特異性と即効性という2つの制約の下で微調整する手法を提案する。
我々のアプローチであるTailored LLaMA は、当初、モデルサイズを 7B から 5B と 4B のパラメータに削減するために構造的プルーニングを用いていた。
その後、タスクに特化して慎重に設計されたプロンプトを適用し、LoRA法を用いて微調整プロセスを高速化する。
さらに、1時間未満で50\%の精度で刈り取られたモデルを微調整すると、50ショットの少ショット学習により、20\%の圧縮比で95.68\%、50ショットの圧縮比で86.54\%に分類タスクの平均精度が復元される。
これら2種類のプレナードモデル上でのTalored LLaMAの検証により, モデルが50%まで圧縮された場合でも, 数ショットの分類および生成タスクにおいて, ベースラインモデルの精度の65%以上を維持していることが示された。
これらの結果から, モデルサイズを著しく削減した高性能維持における適合したアプローチの有効性が示唆された。
関連論文リスト
- LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。
単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。
イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文 参考訳(メタデータ) (2024-05-06T03:42:34Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。