論文の概要: Knowledge Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.13765v1
- Date: Sat, 14 Mar 2026 05:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.391807
- Title: Knowledge Distillation for Large Language Models
- Title(参考訳): 大規模言語モデルのための知識蒸留
- Authors: Alejandro Paredes La Torre, Barbara Flores, Diego Rodriguez,
- Abstract要約: 我々は、英語のDolly-15k、スペイン語のDolly-15k、コードBugNetおよびPyTorrentデータセットに知識蒸留を適用する。
教師の能力は70%から91%、スペイン語では95%、コードでは93.5%である。
これらの結果から, 知識蒸留と連鎖指導型強化学習を組み合わせることで, 資源制約条件下での展開に適した, コンパクトで効率的なモデルが作成できることが示唆された。
- 参考スコア(独自算出の注目度): 42.628421392139
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a resource-efficient framework for compressing large language models through knowledge distillation, combined with guided chain-of-thought reinforcement learning. Using Qwen 3B as the teacher and Qwen 0.5B as the student, we apply knowledge distillation across English Dolly-15k, Spanish Dolly-15k, and code BugNet and PyTorrent datasets, with hyperparameters tuned in the English setting to optimize student performance. Across tasks, the distilled student retains a substantial portion of the teacher's capability while remaining significantly smaller: 70% to 91% in English, up to 95% in Spanish, and up to 93.5% Rouge-L in code. For coding tasks, integrating chain-of-thought prompting with Group Relative Policy Optimization using CoT-annotated Codeforces data improves reasoning coherence and solution correctness compared to knowledge distillation alone. Post-training 4-bit weight quantization further reduces memory footprint and inference latency. These results show that knowledge distillation combined with chain-of-thought guided reinforcement learning can produce compact, efficient models suitable for deployment in resource-constrained settings.
- Abstract(参考訳): 本稿では,知識蒸留による大規模言語モデルを圧縮するための資源効率の高いフレームワークを提案する。
Qwen 3B を教師とし,Qwen 0.5B を学生として使用し,英語 Dolly-15k,スペイン語 Dolly-15k およびコード BugNet と PyTorrent のデータセットに知識蒸留を適用した。
教師の能力は70%から91%、スペイン語では95%、コードでは93.5%である。
コーディングタスクでは、CoTアノテーション付きCodeforcesデータを使用したグループ相対ポリシー最適化にチェーン・オブ・シントを組み込むことで、知識蒸留単独と比較して一貫性と解の正しさが向上する。
トレーニング後の4ビットの重み量子化は、メモリフットプリントと推論遅延をさらに減少させる。
これらの結果から, 知識蒸留と連鎖指導型強化学習を組み合わせることで, 資源制約条件下での展開に適した, コンパクトで効率的なモデルが作成できることが示唆された。
関連論文リスト
- On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。
実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-12T18:58:28Z) - On Multilingual Encoder Language Model Compression for Low-Resource Languages [10.937645683754313]
本稿では,多言語エンコーダのみの言語モデルに対して,2段階の知識蒸留,構造化プルーニング,トランケーション,ボキャブラリトリミングを組み合わせる。
我々の新しいアプローチは、層深さを極端に減らし、フィードフォワードの隠蔽サイズを小さくし、中間層埋め込みサイズを小さくし、モノリンガルモデルを作成する。
圧縮性能は最大92%, 圧縮性能は2~10%, 圧縮性能は最大8~13%である。
論文 参考訳(メタデータ) (2025-05-22T17:35:39Z) - Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - Exploring Content Relationships for Distilling Efficient GANs [69.86835014810714]
本稿では,過剰パラメータ生成逆数ネットワーク(GAN)に対処するコンテンツ関係蒸留(CRD)を提案する。
従来のインスタンスレベルの蒸留とは対照的に,教師出力の内容を細粒度にスライスすることで,新しいGAN圧縮指向の知識を設計する。
提案した内容レベルの蒸留をベースとして,オンライン教師識別器を配置し,教師生成器と共同訓練した場合の更新を継続し,生徒生成器と共同訓練した場合の凍結を継続し,より良い対人訓練を行う。
論文 参考訳(メタデータ) (2022-12-21T15:38:12Z) - Explicit Knowledge Transfer for Weakly-Supervised Code Generation [14.758396460685017]
我々は,LLMのコード生成能力をより小さなモデルに転送するために,明示的な知識伝達(EKT)を提案する。
EKTは、教師のLLMの少数ショット機能を使って、NLコードペアを作成し、学生の正しさと微調整をフィルタします。
EKTは、専門家の反復による訓練よりも優れた性能を得るだけでなく、知識蒸留よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-11-30T04:51:26Z) - Efficient Fine-Tuning of Compressed Language Models with Learners [12.768368718187428]
本稿では,BERTをベースとしたモデルを微調整する新しい手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは, 1) パラメータのサブセットを微調整することで, 1) 学習モジュールの二重結合を効果的に操作し, 2) 迅速な収束と高い測定値のスコアを確保することによって効果的に学習する。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-08-03T13:42:30Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。