Fugu-MT 論文翻訳(概要): LLM-NEO: Parameter Efficient Knowledge Distillation for Large Language Models

論文の概要: LLM-NEO: Parameter Efficient Knowledge Distillation for Large Language Models

arxiv url: http://arxiv.org/abs/2411.06839v2
Date: Tue, 25 Feb 2025 06:42:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:44.619922
Title: LLM-NEO: Parameter Efficient Knowledge Distillation for Large Language Models
Title（参考訳）: LLM-NEO:大規模言語モデルのためのパラメータ効率の良い知識蒸留
Authors: Runming Yang, Taiqiang Wu, Jiahao Wang, Pengfei Hu, Yik-Chung Wu, Ngai Wong, Yujiu Yang,
Abstract要約: 知識蒸留(KD)は、大規模言語モデル(LLM)を圧縮する主要な方法である。本研究は,LoRAをKDに統合し,知識伝達効率を向上させるパラメータ効率の高い知識蒸留法 LLM-NEO を提案する。
参考スコア（独自算出の注目度）: 54.86076216773461
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Knowledge distillation (KD) has been a predominant method for compressing Large Language Models (LLMs). In this paper, we first revisit KD and Low-Rank Adaption (LoRA) and demonstrate that they follow the same paradigm. Inspired by this observation, we propose a parameter-efficient knowledge distillation method, LLM-NEO, which integrates LoRA into KD to improve the efficiency of knowledge transfer. After that, we summarize some valuable guidelines for the hyperparameters in LLM-NEO. Experimental results on compressing Llama 2 and Llama 3.2 show that LLM-NEO outperforms various baselines. Further analysis demonstrates the robustness of the proposed LLM-NEO on variants of LoRA. The code and trained models are available at [Github](https://github.com/yang3121099/LLM-Neo).
Abstract（参考訳）: 知識蒸留(KD)は大規模言語モデル(LLM)を圧縮する主要な手法である。本稿では,まずKD と Low-Rank Adaption (LoRA) を再検討し,それらが同じパラダイムに従うことを実証する。本研究は,LoRAをKDに統合し,知識伝達効率を向上させるパラメータ効率の高い知識蒸留法 LLM-NEO を提案する。その後、LLM-NEOにおけるハイパーパラメーターに関する重要なガイドラインをいくつかまとめる。 Llama 2 と Llama 3.2 の圧縮実験の結果、LLM-NEO は様々なベースラインよりも優れていた。さらなる分析は、LLM-NEOのロラの変種に対する堅牢性を示している。コードとトレーニングされたモデルは[Github](https://github.com/yang3121099/LLM-Neo)で公開されている。

関連論文リスト

Augment or Not? A Comparative Study of Pure and Augmented Large Language Model Recommenders [17.552417918986958]
大規模言語モデル(LLM)は、より豊かな意味理解を可能にし、暗黙の世界知識を取り入れることで、推薦システムのための新しいパラダイムを導入している。本稿では,既存のアプローチを分類する体系的な分類法を提案する。(1) LLMのみに依存した純粋LLMレコメンダ,(2)LLM以外の追加技術を統合して性能を向上させる拡張LLMレコメンダ,である。
論文参考訳（メタデータ） (2025-05-29T03:50:24Z)
LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文参考訳（メタデータ） (2025-04-04T03:03:47Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Mentor-KD: Making Small Language Models Better Multi-step Reasoners [15.159415340059388]
我々は,LLMのマルチステップ推論能力をより小さいLMに効果的に蒸留するメンター-KDを提案する。我々は、メンタ、中間サイズのタスク固有の微調整モデルを利用して、追加のCoTアノテーションを強化します。我々は広範囲な実験を行い、メンターKDの有効性を様々なモデルや複雑な推論タスクで確認する。
論文参考訳（メタデータ） (2024-10-11T17:53:27Z)
RACOON: An LLM-based Framework for Retrieval-Augmented Column Type Annotation with a Knowledge Graph [5.080968323993759]
我々は、Large Language Models(LLMs)が提供するコンテキスト情報を増やすために知識グラフを使用する方法を示す。 RACOONと呼ばれる我々の手法は、生成中に事前訓練されたパラメトリック知識と非パラメトリック知識を組み合わせることで、カラム型におけるLLMの性能を向上させる。実験の結果, RACOONはバニラLEM推定と比較して最大0.21マイクロF-1の改善を達成できた。
論文参考訳（メタデータ） (2024-09-22T18:39:27Z)
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文参考訳（メタデータ） (2024-08-28T15:52:23Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文参考訳（メタデータ） (2024-06-28T09:23:40Z)
MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。 MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文参考訳（メタデータ） (2024-05-29T17:57:16Z)
Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文参考訳（メタデータ） (2024-05-01T06:23:54Z)
Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation [23.736611338497244]
TinyLLMは、複数の大規模LLMから小学生のLLMを学ぶための新しい知識蒸留パラダイムである。そこで本研究では,文脈的に適切なシナリオにおいて,理科が正確で基礎が整っていることを保証するために,文脈内サンプル生成と教師強制型Chain-of-Thought戦略を導入する。その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。
論文参考訳（メタデータ） (2024-02-07T06:48:24Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。ネガティブな対立や干渉はパフォーマンスに悪影響を及ぼすかもしれない我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文参考訳（メタデータ） (2023-11-05T15:48:29Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)
MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。より小さな言語モデルにLPMを蒸留するKD手法を提案する。提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文参考訳（メタデータ） (2023-06-14T14:44:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。