論文の概要: Compass-Thinker-7B Technical Report
- arxiv url: http://arxiv.org/abs/2508.08909v2
- Date: Thu, 14 Aug 2025 07:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.647242
- Title: Compass-Thinker-7B Technical Report
- Title(参考訳): Compass-Thinker-7B 技術報告
- Authors: Anxiang Zeng, Haibo Zhang, Kaixiang Mo, Long Zhang, Shuman Liu, Yanhui Huang, Yawen Liu, Yuepeng Sheng, Yuwei Huang,
- Abstract要約: 計算資源とコストの少ない強化学習の可能性を検討するために,Compass-Thinker-7Bモデルを提案する。
Compass-Thinker-7Bは、特別に設計されたReinforcement Learning Pipelineを通じて、オープンソースモデルからトレーニングされている。
我々はCompass-Thinker-7Bが例外的推論能力を有しており、同じ大きさのRLモデルと比較して数学において優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 8.496143273813718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent R1-Zero-like research further demonstrates that reasoning extension has given large language models (LLMs) unprecedented reasoning capabilities, and Reinforcement Learning is the core technology to elicit its complex reasoning. However, conducting RL experiments directly on hyperscale models involves high computational costs and resource demands, posing significant risks. We propose the Compass-Thinker-7B model, which aims to explore the potential of Reinforcement Learning with less computational resources and costs, and provides insights for further research into RL recipes for larger models. Compass-Thinker-7B is trained from an open source model through a specially designed Reinforcement Learning Pipeline. We curate a dataset of 30k verifiable mathematics problems for the Reinforcement Learning Pipeline. By configuring data and training settings with different difficulty distributions for different stages, the potential of the model is gradually released and the training efficiency is improved. Extensive evaluations show that Compass-Thinker-7B possesses exceptional reasoning potential, and achieves superior performance on mathematics compared to the same-sized RL model. Especially in the challenging AIME2024 evaluation, Compass-Thinker-7B achieves 40% accuracy.
- Abstract(参考訳): 最近のR1-Zeroライクな研究は、推論拡張が大きな言語モデル(LLM)に前例のない推論能力を与え、強化学習がその複雑な推論を引き出す中核技術であることを示している。
しかし、超大規模モデル上で直接RL実験を行うには、高い計算コストとリソース要求が伴い、重大なリスクが生じる。
本稿では,より少ない計算資源とコストで強化学習の可能性を探究することを目的としたCompass-Thinker-7Bモデルを提案する。
Compass-Thinker-7Bは、特別に設計されたReinforcement Learning Pipelineを通じて、オープンソースモデルからトレーニングされている。
強化学習パイプラインのための算数問題30kのデータセットをキュレートする。
異なる段階の難易度分布でデータやトレーニング設定を設定することにより、モデルのポテンシャルを徐々に解放し、トレーニング効率を向上させる。
大規模な評価の結果,Compass-Thinker-7Bは例外的な推論能力を有しており,同じサイズのRLモデルと比較して,数学において優れた性能を発揮することがわかった。
特に、挑戦的なAIME2024評価では、Compass-Thinker-7Bは40%の精度を実現している。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。