論文の概要: Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
- arxiv url: http://arxiv.org/abs/2511.06221v1
- Date: Sun, 09 Nov 2025 04:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.818657
- Title: Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
- Title(参考訳): Tiny Model, Big Logic: VibeThinker-1.5Bの大規模モデル推論能力を緩和する多様性駆動最適化
- Authors: Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang,
- Abstract要約: 本稿では,SSP(Spectrum-to-Signal Principle)を用いた1.5Bパラメータ密度モデルであるVibeThinker-1.5Bを紹介する。
VibeThinker-1.5Bの総トレーニングコストは7800ドルに過ぎず、クローズドソースモデルよりも優れた推論能力を示している。
注目すべきは、3つのベンチマークで400倍のDeepSeek R1を上回っていることだ。
- 参考スコア(独自算出の注目度): 12.229008422568192
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Challenging the prevailing consensus that small models inherently lack robust reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense model developed via our Spectrum-to-Signal Principle (SSP). This challenges the prevailing approach of scaling model parameters to enhance capabilities, as seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL) to amplify the correct signal. With a total training cost of only $7,800, VibeThinker-1.5B demonstrates superior reasoning capabilities compared to closed-source models like Magistral Medium and Claude Opus 4, and performs on par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial improvement over its base model (6.7, 4.3, and 0.6, respectively). On LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its base model's 0.0. These findings demonstrate that small models can achieve reasoning capabilities comparable to large models, drastically reducing training and inference costs and thereby democratizing advanced AI research.
- Abstract(参考訳): 本報告では、小型モデルは本質的にロバストな推論を欠いているという一般的なコンセンサスを満たすために、SSP(Spectrum-to-Signal Principle)を用いて1.5Bのパラメータ密度モデルであるVibeThinker-1.5Bを導入する。
これは、DeepSeek R1 (671B) や Kimi k2 (>1T) のようなモデルで見られるように、機能を強化するためにモデルのパラメータをスケーリングするという一般的なアプローチに挑戦する。
SSPフレームワークは、まず広い範囲のソリューションを生成するために2段階の多様性探索蒸留(SFT)を使用し、続いて正しい信号を増幅するためにMaxEnt-Guided Policy Optimization(RL)を使用する。
トレーニングコストは7800ドルに過ぎず、VibeThinker-1.5BはMagistral MediumやClaude Opus 4のようなクローズドソースモデルと比較して優れた推論能力を示しており、GPT OSS-20B Mediumのようなオープンソースモデルと同等である。
AIME24 (80.3 vs. 79.8)、AIME25 (74.4 vs. 70.0)、HMMT25 (50.4 vs. 41.7)である。
これはベースモデル(それぞれ6.7、4.3、0.6)よりも大幅に改善されている。
LiveCodeBench V6では51.1点を記録し、Magistral Mediumの50.3点とベースモデルの0.0点を上回った。
これらの結果は、小さなモデルは大きなモデルに匹敵する推論能力を達成し、トレーニングと推論コストを大幅に削減し、高度なAI研究を民主化できることを示している。
関連論文リスト
- Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z) - Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning [231.11339402237903]
反応前に思考を通して推論できるSeed1.5-Thinkingを紹介した。
Seed1.5-ThinkingはAIME 2024で86.7、Codeforcesで55.0、GPQAで77.3を達成した。
これは、STEMとコーディングにおいて優れた推論能力を示す。
論文 参考訳(メタデータ) (2025-04-10T17:10:51Z) - SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs [0.0]
本稿では,Hugingface の SmolLM2-1.7B ベースモデルを強化するために,AllenAI の Tulu 3 ポストトレーニングパイプラインを適応した命令チューニング言語モデル SmolTulu を提案する。
ARCやGSM8Kのような推論タスクは高い学習率からバッチサイズ比の恩恵を受ける一方、HellaSwagやIFEvalのようなパターン認識タスクは低い比率で最適な性能を示す。
論文 参考訳(メタデータ) (2024-12-11T12:41:36Z) - GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。
エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。
我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文 参考訳(メタデータ) (2024-09-18T17:00:20Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。