論文の概要: Lion: Adversarial Distillation of Closed-Source Large Language Model
- arxiv url: http://arxiv.org/abs/2305.12870v1
- Date: Mon, 22 May 2023 09:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:00:12.327573
- Title: Lion: Adversarial Distillation of Closed-Source Large Language Model
- Title(参考訳): Lion: クローズドソース大言語モデルの逆拡張
- Authors: Yuxin Jiang, Chunkit Chan, Mingyang Chen, Wei Wang
- Abstract要約: より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。
我々はChatGPTから70kのトレーニングデータを用いて7Bの学生モデルに知識を伝達することに成功している。
- 参考スコア(独自算出の注目度): 7.888412730423817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practice of transferring knowledge from a sophisticated, closed-source
large language model (LLM) to a compact, open-source LLM has garnered
considerable attention. Previous works have focused on a unidirectional
knowledge distillation way by aligning the responses of the student model with
those of the teacher model to a set of instructions. Nevertheless, they
overlooked the possibility of incorporating any reciprocal
"feedback"--identifying challenging instructions where the student model's
performance falls short--to boost the student model's proficiency iteratively.
To this end, we propose a novel adversarial distillation framework for a more
efficient knowledge transfer. Leveraging the versatile role adaptability of
LLMs, we prompt the closed-source model to identify "hard" instructions and
generate new "hard" instructions for the student model, creating a three-stage
adversarial loop of imitation, discrimination, and generation. By applying this
adversarial framework, we successfully transfer knowledge from ChatGPT to a 7B
student model (named Lion), achieving nearly 95% capability approximation using
a mere 70k training data. We aspire that this proposed model may serve as the
baseline to reflect the performance of ChatGPT, especially the open-source
instruction-following language model baseline for our community.
- Abstract(参考訳): 高度でクローズドソースな大規模言語モデル(LLM)からコンパクトでオープンソースなLLMに知識を移す実践が注目されている。
従来の研究は、学生モデルの反応と教師モデルの反応を一連の指示に合わせることによって、一方向の知識蒸留方式に重点を置いてきた。
それにもかかわらず、学生モデルの性能が低下する難易度を識別し、生徒モデルの習熟度を反復的に向上させる「フィードバック」を組み込むことの可能性を見落としていた。
そこで本研究では,より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。
LLMの汎用的役割適応性を活用することで、学生モデルに「ハード」命令を識別し、新しい「ハード」命令を生成し、3段階の模倣・差別・生成の逆ループを生成する。
本研究では,ChatGPT から 7B の学生モデル (Lion という名前) に知識を伝達し,わずか70k の学習データを用いて約95% の能力近似を実現する。
この提案モデルがchatgptのパフォーマンスを反映したベースライン、特にコミュニティのためのオープンソースのインストラクションフォロー言語モデルとして機能するのではないかと考えています。
関連論文リスト
- Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - Can Small Language Models be Good Reasoners for Sequential Recommendation? [34.098264212413305]
SLIM (Step-by-step knowLedge dIstillation fraMework for recommendation)
より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。
教師モデルによって生成される理論的根拠をラベルとして利用し、下流のより小さな学生モデルを蒸留する。
論文 参考訳(メタデータ) (2024-03-07T06:49:37Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models [74.48765681246947]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Orca: Progressive Learning from Complex Explanation Traces of GPT-4 [22.526048553548726]
我々は, LFMの推論過程を模倣する13ビリオンパラメータモデルOrcaを開発した。
Orcaは、説明トレース、ステップバイステップの思考プロセス、その他の複雑な命令を含む、GPT-4から豊富な信号から学習する。
Orcaは、複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回る。
論文 参考訳(メタデータ) (2023-06-05T08:58:39Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Explicit Knowledge Transfer for Weakly-Supervised Code Generation [14.758396460685017]
我々は,LLMのコード生成能力をより小さなモデルに転送するために,明示的な知識伝達(EKT)を提案する。
EKTは、教師のLLMの少数ショット機能を使って、NLコードペアを作成し、学生の正しさと微調整をフィルタします。
EKTは、専門家の反復による訓練よりも優れた性能を得るだけでなく、知識蒸留よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-11-30T04:51:26Z) - Boosting Contrastive Learning with Relation Knowledge Distillation [12.14219750487548]
関係知識蒸留 (Relation Knowledge Distillation, ReKD) を用いた関係性に関するコントラストパラダイムを提案する。
提案手法は,複数の軽量モデルにおいて大幅な改善を実現することを示す。
論文 参考訳(メタデータ) (2021-12-08T08:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。