論文の概要: Lion: Adversarial Distillation of Proprietary Large Language Models
- arxiv url: http://arxiv.org/abs/2305.12870v2
- Date: Sat, 14 Oct 2023 02:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:09:16.869702
- Title: Lion: Adversarial Distillation of Proprietary Large Language Models
- Title(参考訳): Lion: プロプライエタリな大規模言語モデルの逆蒸留
- Authors: Yuxin Jiang, Chunkit Chan, Mingyang Chen, Wei Wang
- Abstract要約: より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。
我々は、ChatGPTから学生モデル(Lionという名前)に、たった70kのトレーニングデータを使って知識を伝達することに成功しました。
- 参考スコア(独自算出の注目度): 16.245052771463044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practice of transferring knowledge from a sophisticated, proprietary
large language model (LLM) to a compact, open-source LLM has garnered
considerable attention. Previous works have focused on a unidirectional
knowledge distillation way by aligning the responses of the student model with
those of the teacher model to a set of instructions. Nevertheless, they
overlooked the possibility of incorporating any reciprocal
"feedback"--identifying challenging instructions where the student model's
performance falls short--to boost the student model's proficiency iteratively.
To this end, we propose a novel adversarial distillation framework for a more
efficient knowledge transfer. Leveraging the versatile role adaptability of
LLMs, we prompt the teacher model to identify "hard" instructions and generate
new "hard" instructions for the student model, creating a three-stage
adversarial loop of imitation, discrimination, and generation. By applying this
adversarial framework, we successfully transfer knowledge from ChatGPT to a
student model (named Lion), using a mere 70k training data. Our results show
that Lion-13B not only achieves comparable open-ended generation capabilities
to ChatGPT but surpasses conventional state-of-the-art (SOTA) instruction-tuned
models like Vicuna-13B by 55.4% in challenging zero-shot reasoning benchmarks
such as BIG-Bench Hard (BBH) and 16.7% on AGIEval. Code and model can be found
at https://github.com/YJiangcm/Lion.
- Abstract(参考訳): 高度でプロプライエタリな大規模言語モデル (LLM) からコンパクトなオープンソース LLM に知識を移すことが注目されている。
従来の研究は、学生モデルの反応と教師モデルの反応を一連の指示に合わせることによって、一方向の知識蒸留方式に重点を置いてきた。
それにもかかわらず、学生モデルの性能が低下する難易度を識別し、生徒モデルの習熟度を反復的に向上させる「フィードバック」を組み込むことの可能性を見落としていた。
そこで本研究では,より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。
llmsの多用途な役割適応性を活用して,教師モデルに対して「ハード」命令を識別し,生徒モデルの新たな「ハード」命令を生成し,模倣,識別,生成の3段階の逆ループを作成する。
この敵対的枠組みを適用することで,チャットgptからわずか70kのトレーニングデータを用いて,知識を学生モデル(lion)に転送することに成功した。
我々の結果は、Lion-13BがChatGPTに匹敵するオープンエンド生成能力を達成するだけでなく、BIG-Bench Hard(BBH)やAGIEvalの16.7%といったゼロショット推論ベンチマークにおいて、Vicuna-13Bのような従来の最先端(SOTA)命令チューニングモデルを55.4%上回ることを示している。
コードとモデルはhttps://github.com/YJiangcm/Lion.orgにある。
関連論文リスト
- Can Small Language Models be Good Reasoners for Sequential
Recommendation? [35.380559538263455]
SLIM (Step-by-step knowLedge dIstillation fraMework for recommendation)
より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。
教師モデルによって生成される理論的根拠をラベルとして利用し、下流のより小さな学生モデルを蒸留する。
論文 参考訳(メタデータ) (2024-03-07T06:49:37Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models [74.48765681246947]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Teaching Language Models to Self-Improve through Interactive
Demonstrations [90.05698053752806]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Knowledge Distillation of Large Language Models [123.36847200257805]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Orca: Progressive Learning from Complex Explanation Traces of GPT-4 [22.526048553548726]
我々は, LFMの推論過程を模倣する13ビリオンパラメータモデルOrcaを開発した。
Orcaは、説明トレース、ステップバイステップの思考プロセス、その他の複雑な命令を含む、GPT-4から豊富な信号から学習する。
Orcaは、複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回る。
論文 参考訳(メタデータ) (2023-06-05T08:58:39Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Explicit Knowledge Transfer for Weakly-Supervised Code Generation [14.758396460685017]
我々は,LLMのコード生成能力をより小さなモデルに転送するために,明示的な知識伝達(EKT)を提案する。
EKTは、教師のLLMの少数ショット機能を使って、NLコードペアを作成し、学生の正しさと微調整をフィルタします。
EKTは、専門家の反復による訓練よりも優れた性能を得るだけでなく、知識蒸留よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-11-30T04:51:26Z) - Boosting Contrastive Learning with Relation Knowledge Distillation [12.14219750487548]
関係知識蒸留 (Relation Knowledge Distillation, ReKD) を用いた関係性に関するコントラストパラダイムを提案する。
提案手法は,複数の軽量モデルにおいて大幅な改善を実現することを示す。
論文 参考訳(メタデータ) (2021-12-08T08:49:18Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。