論文の概要: Compass-Thinker-7B Technical Report
- arxiv url: http://arxiv.org/abs/2508.08909v1
- Date: Tue, 12 Aug 2025 12:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.42694
- Title: Compass-Thinker-7B Technical Report
- Title(参考訳): Compass-Thinker-7B 技術報告
- Authors: Anxiang Zeng, Haibo Zhang, Kaixiang Mo, Long Zhang, Shuman Liu, Yanhui Huang, Yawen Liu, Yuepeng Sheng, Yuwei Huang,
- Abstract要約: 我々は,少ない計算資源とコストでReinforcement Learn-ingの可能性を探るため,Compass-Thinker-7Bモデルを提案する。
Compass-Thinker-7Bは、Spe-cially設計のReinforcement Learning Pipelineを通じて、オープンソースモデルからトレーニングされている。
- 参考スコア(独自算出の注目度): 8.496143273813718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent R1-Zero-like research further demonstrates that reasoning extension has given large language models (LLMs) unprecedented reasoning capabilities, and Reinforcement Learning is the core tech- nology to elicit its complex reasoning. However, conducting RL experiments directly on hyperscale models involves high computational costs and resource demands, posing significant risks. We pro- pose the Compass-Thinker-7B model, which aims to explore the potential of Reinforcement Learn- ing with less computational resources and costs, and provides insights for further research into RL recipes for larger models. Compass-Thinker-7B is trained from an open source model through a spe- cially designed Reinforcement Learning Pipeline. we curate a dataset of 30k verifiable mathematics problems for the Reinforcement Learning Pipeline. By configuring data and training settings with dif- ferent difficulty distributions for different stages, the potential of the model is gradually released and the training efficiency is improved. Extensive evaluations show that Compass-Thinker-7B possesses exceptional reasoning potential, and achieves superior performance on mathematics compared to the same-sized RL model.Especially in the challenging AIME2024 evaluation, Compass-Thinker-7B achieves 40% accuracy.
- Abstract(参考訳): 最近のR1-Zeroライクな研究は、推論拡張が大きな言語モデル(LLM)に前例のない推論能力を与え、強化学習はその複雑な推論を引き出す中核的な技術ノロジーであることを示している。
しかし、超大規模モデル上で直接RL実験を行うには、高い計算コストとリソース要求が伴い、重大なリスクが生じる。
我々は,より少ない計算資源とコストでReinforcement Learn-ingの可能性を探求することを目的としたCompass-Thinker-7Bモデルを提案し,大規模モデルのRLレシピについてさらなる研究を行うための洞察を提供する。
Compass-Thinker-7Bは、Spe-cially設計のReinforcement Learning Pipelineを通じて、オープンソースモデルからトレーニングされている。
Reinforcement Learning Pipelineに対して,30kの検証可能な数学問題のデータセットをキュレートする。
異なる段階のディフフェレント困難分布でデータやトレーニング設定を設定することにより、モデルのポテンシャルを徐々に解放し、トレーニング効率を向上する。
広範囲な評価の結果,Compass-Thinker-7Bは例外的推論能力を持ち,同じ大きさのRLモデルよりも優れた性能を発揮し,特にAIME2024評価において,コンパス-Thinker-7Bは40%の精度で精度を達成している。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。