論文の概要: TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation
- arxiv url: http://arxiv.org/abs/2503.04872v1
- Date: Thu, 06 Mar 2025 16:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:35.009918
- Title: TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation
- Title(参考訳): TinyR1-32B:ブランチマージ蒸留の精度向上
- Authors: Lin Sun, Guangxiang Zhao, Xiaoqi Jian, Yuhan Wu, Weihong Lin, Yongfu Zhu, Change Jia, Linglin Zhang, Jinzhu Wu, Junfeng Ran, Sai-er Hu, Zihan Jiang, Junting Zhou, Wenrui Liu, Bin Cui, Tong Yang, Xiangzheng Zhang,
- Abstract要約: 本稿では, モデル圧縮を2相で促進するブランチ・マージ蒸留法を提案する。
我々は,DeepSeek-R1を教師とし,DeepSeek-R1-Distill-Qwen-32Bを学生として蒸留アプローチを検証する。
合併したTinyR1-32B-Previewは、複数のベンチマークでDeepSeek-R1-Distill-Qwen-32Bを上回った。
- 参考スコア(独自算出の注目度): 19.938309176933902
- License:
- Abstract: The challenge of reducing the size of Large Language Models (LLMs) while maintaining their performance has gained significant attention. However, existing methods, such as model distillation and transfer learning, often fail to achieve high accuracy. To address this limitation, we introduce the Branch-Merge distillation approach, which enhances model compression through two phases: (1) the Branch Phase, where knowledge from a large teacher model is \textit{selectively distilled} into specialized student models via domain-specific supervised fine-tuning (SFT); And (2) the Merge Phase, where these student models are merged to enable cross-domain knowledge transfer and improve generalization. We validate our distillation approach using DeepSeek-R1 as the teacher and DeepSeek-R1-Distill-Qwen-32B as the student. The resulting merged model, TinyR1-32B-Preview, outperforms its counterpart DeepSeek-R1-Distill-Qwen-32B across multiple benchmarks, including Mathematics (+5.5 points), Coding (+4.4 points) and Science (+2.9 points), while achieving near-equal performance to DeepSeek-R1 on AIME 2024. The Branch-Merge distillation approach provides a scalable solution for creating smaller, high-performing LLMs with reduced computational cost and time.
- Abstract(参考訳): 性能を維持しながらLLM(Large Language Models)のサイズを減らすという課題は大きな注目を集めている。
しかし、モデル蒸留や転写学習のような既存の手法は、しばしば高い精度を達成できない。
この制限に対処するため,1) 大規模教師モデルからの知識を専門の学生モデルに提供し,ドメイン固有の教師による微調整(SFT)を施したブランチフェーズと,(2) 学生モデルを統合してクロスドメインの知識伝達を可能にし,一般化を改善するマージフェーズという,2つのフェーズによるモデル圧縮を強化するブランチ・マージ蒸留手法を導入する。
我々は,DeepSeek-R1を教師とし,DeepSeek-R1-Distill-Qwen-32Bを学生として蒸留アプローチを検証する。
合併したモデルであるTinyR1-32B-Previewは、数学(+5.5ポイント)、コーディング(+4.4ポイント)、サイエンス(+2.9ポイント)を含む複数のベンチマークでDeepSeek-R1-Distill-Qwen-32Bを上回り、AIME 2024ではDeepSeek-R1にほぼ等しくなる。
Branch-Merge蒸留法は、計算コストと時間を削減した小型で高性能なLCMを作成するためのスケーラブルなソリューションを提供する。
関連論文リスト
- Multi-Level Decoupled Relational Distillation for Heterogeneous Architectures [6.231548250160585]
MLDR-KD(Multi-Level Decoupled Knowledge Distillation)は、CodeAR-100で最大4.86%、Tiny-ImageNetデータセットで2.78%向上した。
論文 参考訳(メタデータ) (2025-02-10T06:41:20Z) - Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation [74.67594286008317]
本稿では,大きな教師モデルから,LiDARセマンティックセグメンテーションのためのスリムな学生ネットワークへの知識の抽出の問題に対処する。
本稿では,点レベルとボクセルレベルの両方から隠れた知識を伝達するPVDを提案する。
論文 参考訳(メタデータ) (2022-06-05T05:28:32Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - New Perspective on Progressive GANs Distillation for One-class Novelty
Detection [21.90786581579228]
Thecoder-Decoder-Encoder scheme (EDE-GAN) に基づくジェネレーティブ・アドバイサル・ネットワークは最先端の性能を実現する。
新しい技術、P-KDGAN(Progressive Knowledge Distillation with GAN)は、設計された蒸留損失を通じて2つの標準GANを接続する。
2段階のプログレッシブ・ラーニングは、シングルステップ・アプローチよりも成績が向上し、学生のGANのパフォーマンスを継続的に向上させる。
論文 参考訳(メタデータ) (2021-09-15T13:45:30Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。