論文の概要: A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone
- arxiv url: http://arxiv.org/abs/2505.12781v1
- Date: Mon, 19 May 2025 07:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.457566
- Title: A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone
- Title(参考訳): トークンは1000以上の価値:低ランククローンによる効率的な知識蒸留
- Authors: Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu,
- Abstract要約: 低ランククローン(Lol-Rank Clone、LRC)は、強力な教師モデルによる行動等価性を目指すSLMを構築するための効率的な事前学習手法である。
LRCは、20Bトークンしか使用せず、1000倍以上のトレーニング効率を達成しながら、何十兆ものトークンでトレーニングされた最先端のモデルと一致または超えている。
- 参考スコア(独自算出の注目度): 43.277946885969726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training high-performing Small Language Models (SLMs) remains costly, even with knowledge distillation and pruning from larger teacher models. Existing work often faces three key challenges: (1) information loss from hard pruning, (2) inefficient alignment of representations, and (3) underutilization of informative activations, particularly from Feed-Forward Networks (FFNs). To address these challenges, we introduce Low-Rank Clone (LRC), an efficient pre-training method that constructs SLMs aspiring to behavioral equivalence with strong teacher models. LRC trains a set of low-rank projection matrices that jointly enable soft pruning by compressing teacher weights, and activation clone by aligning student activations, including FFN signals, with those of the teacher. This unified design maximizes knowledge transfer while removing the need for explicit alignment modules. Extensive experiments with open-source teachers (e.g., Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) show that LRC matches or surpasses state-of-the-art models trained on trillions of tokens--while using only 20B tokens, achieving over 1,000x training efficiency. Our codes and model checkpoints are available at https://github.com/CURRENTF/LowRankClone and https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
- Abstract(参考訳): SLM(Small Language Models)の訓練は、知識の蒸留やより大きな教師モデルからの切り抜きであっても、費用がかかるままである。
既存の作業は,(1)ハードプルーニングからの情報損失,(2)非効率な表現のアライメント,(3)フィードフォワードネットワーク(FFN)からの情報アクティベーションの非活用,という3つの大きな課題に直面している。
これらの課題に対処するために,強力な教師モデルを用いた行動等価性を目指したSLMの構築を目的とした,効率的な事前学習手法であるLol-Rank Clone (LRC)を導入する。
LRCは、教師の重みを圧縮することでソフトプルーニングを共同で可能にし、FFN信号を含む学生の活性化を教師のものと整合させることによりアクティベーションクローンを訓練する。
この統一設計は、明示的なアライメントモジュールの必要性を取り除きながら、知識伝達を最大化する。
オープンソースの教師(Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct)による大規模な実験は、LRCが1兆ドル単位のトークンでトレーニングされた最先端のモデルと一致するか、あるいは超えていることを示している。
私たちのコードとモデルチェックポイントはhttps://github.com/CURRENTF/LowRankCloneとhttps://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfafで利用可能です。
関連論文リスト
- Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。
しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。
本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文 参考訳(メタデータ) (2024-05-01T06:23:54Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Instruction Distillation Makes Large Language Models Efficient Zero-shot
Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。
まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。
提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文 参考訳(メタデータ) (2023-11-02T19:16:21Z) - Lion: Adversarial Distillation of Proprietary Large Language Models [16.245052771463044]
より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。
我々は、ChatGPTから学生モデル(Lionという名前)に、たった70kのトレーニングデータを使って知識を伝達することに成功しました。
論文 参考訳(メタデータ) (2023-05-22T09:49:16Z) - Explicit Knowledge Transfer for Weakly-Supervised Code Generation [14.758396460685017]
我々は,LLMのコード生成能力をより小さなモデルに転送するために,明示的な知識伝達(EKT)を提案する。
EKTは、教師のLLMの少数ショット機能を使って、NLコードペアを作成し、学生の正しさと微調整をフィルタします。
EKTは、専門家の反復による訓練よりも優れた性能を得るだけでなく、知識蒸留よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-11-30T04:51:26Z) - L2B: Learning to Bootstrap Robust Models for Combating Label Noise [52.02335367411447]
本稿では,Learning to Bootstrap (L2B) という,シンプルで効果的な手法を提案する。
モデルは、誤った擬似ラベルの影響を受けずに、自身の予測を使ってブートストラップを行うことができる。
これは、実際の観測されたラベルと生成されたラベル間の重みを動的に調整し、メタラーニングを通じて異なるサンプル間の重みを動的に調整することで実現される。
論文 参考訳(メタデータ) (2022-02-09T05:57:08Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。