論文の概要: Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models
- arxiv url: http://arxiv.org/abs/2512.06266v1
- Date: Sat, 06 Dec 2025 03:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.274748
- Title: Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models
- Title(参考訳): Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models
- Authors: Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Wei Ruan, Xiaoqi Liu, Xiaoxue Cheng, Xiyun Xu, Yang Song, Yanzipeng Gao, Yiming Jia, Yun Xing, Yuntao Wen, Zekai Wang, Zhenwei An, Zhicong Sun, Zongchao Chen,
- Abstract要約: Nanbeige4-3Bは小型だが高性能な言語モデルである。
23Tの高品質トークンで事前訓練され、3000万以上の多様な命令に基づいて微調整され、小型言語モデルのスケーリング法則の境界を広げる。
- 参考スコア(独自算出の注目度): 23.832817775138675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Nanbeige4-3B, a family of small-scale but high-performing language models. Pretrained on 23T high-quality tokens and finetuned on over 30 million diverse instructions, we extend the boundary of the scaling law for small language models. In pre-training, we design a Fine-Grained Warmup-Stable-Decay (FG-WSD) training scheduler, which progressively refines data mixtures across stages to boost model performance. In post-training, to improve the quality of the SFT data, we design a joint mechanism that integrates deliberative generation refinement and chain-of-thought reconstruction, yielding substantial gains on complex tasks. Following SFT, we employ our flagship reasoning model to distill Nanbeige4-3B through our proposed Dual Preference Distillation (DPD) method, which leads to further performance gains. Finally, a multi-stage reinforcement learning phase was applied, leveraging verifiable rewards and preference modeling to strengthen abilities on both reasoning and human alignment. Extensive evaluations show that Nanbeige4-3B not only significantly outperforms models of comparable parameter scale but also rivals much larger models across a wide range of benchmarks. The model checkpoints are available at https://huggingface.co/Nanbeige.
- Abstract(参考訳): 小型だが高性能な言語モデルであるNanbeige4-3Bについて述べる。
23Tの高品質トークンで事前訓練され、3000万以上の多様な命令に基づいて微調整され、小型言語モデルのスケーリング法則の境界を広げる。
プレトレーニングでは,FG-WSDトレーニングスケジューラを設計し,段階ごとのデータ混合を段階的に洗練し,モデル性能を向上する。
本研究では,SFTデータの品質を向上させるために,検討世代改良とチェーン・オブ・コンストラクションを統合した共同機構を設計し,複雑なタスクに実質的な利得を与える。
SFT の後,本手法では,Nanbeige4-3B を蒸留するためのフラッグシップ推算モデルを用いて,提案手法であるDual Preference Distillation (DPD) を用いて,さらなる性能向上を実現している。
最後に、検証可能な報酬と選好モデルを利用して、推論と人間のアライメントの両方の能力を強化する多段階強化学習フェーズを適用した。
広範囲な評価により、Nanbeige4-3Bは、同等のパラメータスケールのモデルよりも優れているだけでなく、広範囲のベンチマークではるかに大きなモデルに匹敵することがわかった。
モデルチェックポイントはhttps://huggingface.co/Nanbeige.comで入手できる。
関連論文リスト
- Scaling Transformers for Discriminative Recommendation via Generative Pretraining [15.796591192359044]
オーバーフィット問題に対処するため,GPSD (textbfGenerative textbfPretraining for textbfScalable textbfDiscriminative Recommendation) というフレームワークを提案する。
産業規模のデータセットと一般公開データセットの両方で実施された大規模な実験は、GPSDの優れた性能を示している。
論文 参考訳(メタデータ) (2025-06-04T08:31:33Z) - HAD: Hybrid Architecture Distillation Outperforms Teacher in Genomic Sequence Modeling [52.58723853697152]
DNA配列モデリングのためのハイブリッドアーキテクチャ蒸留(HAD)手法を提案する。
我々はNTv2-500Mを教師モデルとして採用し,グループマスキング戦略を考案した。
類似したパラメータを持つモデルと比較して,本モデルは優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-27T07:57:35Z) - Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。