Fugu-MT 論文翻訳(概要): Lion: Adversarial Distillation of Proprietary Large Language Models

論文の概要: Lion: Adversarial Distillation of Proprietary Large Language Models

arxiv url: http://arxiv.org/abs/2305.12870v2
Date: Sat, 14 Oct 2023 02:21:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 05:09:16.869702
Title: Lion: Adversarial Distillation of Proprietary Large Language Models
Title（参考訳）: Lion: プロプライエタリな大規模言語モデルの逆蒸留
Authors: Yuxin Jiang, Chunkit Chan, Mingyang Chen, Wei Wang
Abstract要約: より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。我々は、ChatGPTから学生モデル(Lionという名前)に、たった70kのトレーニングデータを使って知識を伝達することに成功しました。
参考スコア（独自算出の注目度）: 16.245052771463044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The practice of transferring knowledge from a sophisticated, proprietary large language model (LLM) to a compact, open-source LLM has garnered considerable attention. Previous works have focused on a unidirectional knowledge distillation way by aligning the responses of the student model with those of the teacher model to a set of instructions. Nevertheless, they overlooked the possibility of incorporating any reciprocal "feedback"--identifying challenging instructions where the student model's performance falls short--to boost the student model's proficiency iteratively. To this end, we propose a novel adversarial distillation framework for a more efficient knowledge transfer. Leveraging the versatile role adaptability of LLMs, we prompt the teacher model to identify "hard" instructions and generate new "hard" instructions for the student model, creating a three-stage adversarial loop of imitation, discrimination, and generation. By applying this adversarial framework, we successfully transfer knowledge from ChatGPT to a student model (named Lion), using a mere 70k training data. Our results show that Lion-13B not only achieves comparable open-ended generation capabilities to ChatGPT but surpasses conventional state-of-the-art (SOTA) instruction-tuned models like Vicuna-13B by 55.4% in challenging zero-shot reasoning benchmarks such as BIG-Bench Hard (BBH) and 16.7% on AGIEval. Code and model can be found at https://github.com/YJiangcm/Lion.
Abstract（参考訳）: 高度でプロプライエタリな大規模言語モデル (LLM) からコンパクトなオープンソース LLM に知識を移すことが注目されている。従来の研究は、学生モデルの反応と教師モデルの反応を一連の指示に合わせることによって、一方向の知識蒸留方式に重点を置いてきた。それにもかかわらず、学生モデルの性能が低下する難易度を識別し、生徒モデルの習熟度を反復的に向上させる「フィードバック」を組み込むことの可能性を見落としていた。そこで本研究では,より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。 llmsの多用途な役割適応性を活用して,教師モデルに対して「ハード」命令を識別し,生徒モデルの新たな「ハード」命令を生成し,模倣,識別,生成の3段階の逆ループを作成する。この敵対的枠組みを適用することで,チャットgptからわずか70kのトレーニングデータを用いて,知識を学生モデル(lion)に転送することに成功した。我々の結果は、Lion-13BがChatGPTに匹敵するオープンエンド生成能力を達成するだけでなく、BIG-Bench Hard(BBH)やAGIEvalの16.7%といったゼロショット推論ベンチマークにおいて、Vicuna-13Bのような従来の最先端(SOTA)命令チューニングモデルを55.4%上回ることを示している。コードとモデルはhttps://github.com/YJiangcm/Lion.orgにある。

関連論文リスト

A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone [43.277946885969726]
低ランククローン(Lol-Rank Clone、LRC)は、強力な教師モデルによる行動等価性を目指すSLMを構築するための効率的な事前学習手法である。 LRCは、20Bトークンしか使用せず、1000倍以上のトレーニング効率を達成しながら、何十兆ものトークンでトレーニングされた最先端のモデルと一致または超えている。
論文参考訳（メタデータ） (2025-05-19T07:10:42Z)
Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文参考訳（メタデータ） (2025-04-07T23:57:32Z)
CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文参考訳（メタデータ） (2025-03-23T23:53:08Z)
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文参考訳（メタデータ） (2025-02-26T20:50:11Z)
Enhancing Knowledge Distillation for LLMs with Response-Priming Prompting [1.9461727843485295]
そこで本研究では,学生モデルの性能向上のための新しい応答プライシング手法を提案する。 Llama 3.1 405B 教師モデルから知識を抽出し,より小さな Llama 3.1 8B 教師モデルを微調整する。その結果, 蒸留したLlama 3.1 8BインストラクトのGSM8Kは55%向上した。
論文参考訳（メタデータ） (2024-12-18T20:41:44Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文参考訳（メタデータ） (2024-05-01T06:23:54Z)
Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。我々は,教師モデルとしてPythia-2.8Bから出発する。我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文参考訳（メタデータ） (2024-03-20T17:42:08Z)
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文参考訳（メタデータ） (2024-03-13T05:38:39Z)
Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文参考訳（メタデータ） (2023-12-28T15:02:03Z)
Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文参考訳（メタデータ） (2023-10-20T14:11:04Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。より小さな言語モデルにLPMを蒸留するKD手法を提案する。提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文参考訳（メタデータ） (2023-06-14T14:44:03Z)
Orca: Progressive Learning from Complex Explanation Traces of GPT-4 [22.526048553548726]
我々は, LFMの推論過程を模倣する13ビリオンパラメータモデルOrcaを開発した。 Orcaは、説明トレース、ステップバイステップの思考プロセス、その他の複雑な命令を含む、GPT-4から豊富な信号から学習する。 Orcaは、複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回る。
論文参考訳（メタデータ） (2023-06-05T08:58:39Z)
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文参考訳（メタデータ） (2023-05-24T04:22:26Z)
Explicit Knowledge Transfer for Weakly-Supervised Code Generation [14.758396460685017]
我々は,LLMのコード生成能力をより小さなモデルに転送するために,明示的な知識伝達(EKT)を提案する。 EKTは、教師のLLMの少数ショット機能を使って、NLコードペアを作成し、学生の正しさと微調整をフィルタします。 EKTは、専門家の反復による訓練よりも優れた性能を得るだけでなく、知識蒸留よりも優れることがわかった。
論文参考訳（メタデータ） (2022-11-30T04:51:26Z)
Boosting Contrastive Learning with Relation Knowledge Distillation [12.14219750487548]
関係知識蒸留 (Relation Knowledge Distillation, ReKD) を用いた関係性に関するコントラストパラダイムを提案する。提案手法は,複数の軽量モデルにおいて大幅な改善を実現することを示す。
論文参考訳（メタデータ） (2021-12-08T08:49:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。