論文の概要: LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2411.06839v1
- Date: Mon, 11 Nov 2024 10:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:53.777440
- Title: LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models
- Title(参考訳): LLM-Neo:大規模言語モデルのためのパラメータ効率の良い知識蒸留
- Authors: Runming Yang, Taiqiang Wu, Jiahao Wang, Pengfei Hu, Ngai Wong, Yujiu Yang,
- Abstract要約: 本稿では,大規模言語モデルからコンパクトな学生に知識を効率的に伝達する新しいフレームワークを提案する。
この観察から着想を得た我々は,LoRAとKDを組み合わせて知識伝達の効率化を図る。
- 参考スコア(独自算出の注目度): 45.99790250483618
- License:
- Abstract: In this paper, we propose a novel LLM-Neo framework that efficiently transfers knowledge from a large language model (LLM) teacher to a compact student. Initially, we revisit the knowledge distillation (KD) and low-rank adaption (LoRA), and argue that they share the same paradigm. Inspired by this observation, we explore the strategy that combines LoRA and KD to enhance the efficiency of knowledge transfer. We first summarize some guidelines for this design and further develop the LLM-Neo. Experimental results on compressing Llama 2 and Llama 3 show that LLM-Neo outperforms various baselines. Further analysis demonstrates the robustness of the proposed LLM-Neo on variants of LoRA. The trained models have been available at \href{https://huggingface.co/collections/yang31210999/llm-neo-66e3c882f5579b829ff57eba}{this repository}.
- Abstract(参考訳): 本稿では,LLM-Neoフレームワークを提案する。LLM-Neoフレームワークは,大規模言語モデル(LLM)教師からコンパクトな学生に知識を効率的に伝達する。
当初、我々は知識蒸留(KD)と低ランク適応(LoRA)を再考し、それらが同じパラダイムを共有していると主張している。
この観察から着想を得た我々は,LoRAとKDを組み合わせて知識伝達の効率化を図る。
まず、この設計のガイドラインを要約し、LLM-Neoの開発をさらに進める。
Llama 2 と Llama 3 の圧縮実験の結果, LLM-Neo は様々なベースラインに優れていた。
さらなる分析により、LLM-Neo が LoRA の変種に対して頑健であることが示されている。
トレーニングされたモデルは、 \href{https://huggingface.co/collections/yang31210999/llm-neo-66e3c882f5579b829ff57eba}{this repository}で利用可能である。
関連論文リスト
- Policy-to-Language: Train LLMs to Explain Decisions with Flow-Matching Generated Rewards [37.063288509982904]
LLMに基づくモデルに依存しない説明生成器を構築する。
このLSMをトレーニングする報酬は、生成フローマッチングモデルによって生成される。
RLタスクとLLMタスクの両方の実験により、高額な人的フィードバックを節約しながら、高密度で効果的な報酬を生成できることが実証された。
論文 参考訳(メタデータ) (2025-02-18T04:34:45Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。
しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。
本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文 参考訳(メタデータ) (2024-05-01T06:23:54Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。