論文の概要: Compass-Thinker-7B Technical Report
- arxiv url: http://arxiv.org/abs/2508.08909v2
- Date: Thu, 14 Aug 2025 07:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.647242
- Title: Compass-Thinker-7B Technical Report
- Title(参考訳): Compass-Thinker-7B 技術報告
- Authors: Anxiang Zeng, Haibo Zhang, Kaixiang Mo, Long Zhang, Shuman Liu, Yanhui Huang, Yawen Liu, Yuepeng Sheng, Yuwei Huang,
- Abstract要約: 計算資源とコストの少ない強化学習の可能性を検討するために,Compass-Thinker-7Bモデルを提案する。
Compass-Thinker-7Bは、特別に設計されたReinforcement Learning Pipelineを通じて、オープンソースモデルからトレーニングされている。
我々はCompass-Thinker-7Bが例外的推論能力を有しており、同じ大きさのRLモデルと比較して数学において優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 8.496143273813718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent R1-Zero-like research further demonstrates that reasoning extension has given large language models (LLMs) unprecedented reasoning capabilities, and Reinforcement Learning is the core technology to elicit its complex reasoning. However, conducting RL experiments directly on hyperscale models involves high computational costs and resource demands, posing significant risks. We propose the Compass-Thinker-7B model, which aims to explore the potential of Reinforcement Learning with less computational resources and costs, and provides insights for further research into RL recipes for larger models. Compass-Thinker-7B is trained from an open source model through a specially designed Reinforcement Learning Pipeline. We curate a dataset of 30k verifiable mathematics problems for the Reinforcement Learning Pipeline. By configuring data and training settings with different difficulty distributions for different stages, the potential of the model is gradually released and the training efficiency is improved. Extensive evaluations show that Compass-Thinker-7B possesses exceptional reasoning potential, and achieves superior performance on mathematics compared to the same-sized RL model. Especially in the challenging AIME2024 evaluation, Compass-Thinker-7B achieves 40% accuracy.
- Abstract(参考訳): 最近のR1-Zeroライクな研究は、推論拡張が大きな言語モデル(LLM)に前例のない推論能力を与え、強化学習がその複雑な推論を引き出す中核技術であることを示している。
しかし、超大規模モデル上で直接RL実験を行うには、高い計算コストとリソース要求が伴い、重大なリスクが生じる。
本稿では,より少ない計算資源とコストで強化学習の可能性を探究することを目的としたCompass-Thinker-7Bモデルを提案する。
Compass-Thinker-7Bは、特別に設計されたReinforcement Learning Pipelineを通じて、オープンソースモデルからトレーニングされている。
強化学習パイプラインのための算数問題30kのデータセットをキュレートする。
異なる段階の難易度分布でデータやトレーニング設定を設定することにより、モデルのポテンシャルを徐々に解放し、トレーニング効率を向上させる。
大規模な評価の結果,Compass-Thinker-7Bは例外的な推論能力を有しており,同じサイズのRLモデルと比較して,数学において優れた性能を発揮することがわかった。
特に、挑戦的なAIME2024評価では、Compass-Thinker-7Bは40%の精度を実現している。
関連論文リスト
- RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning [37.197149670957394]
Stratified-based Curriculum Learning (RuCL)は、データ選択から報酬設計へ焦点を移すことでカリキュラム学習を再構築する新しいフレームワークである。
RuCLは広く適用可能な一般化されたルーリックを生成し、モデルの能力に基づいてそれらを階層化する。
様々な視覚的推論ベンチマークの実験により、RuCLはQwen2.5-VL-7Bモデルよりも平均的な7.83%向上した。
論文 参考訳(メタデータ) (2026-02-25T06:46:24Z) - D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use [17.99381644283042]
大きな推論モデル(LRM)は、複雑なツール使用シナリオにおけるサブタスク分解の能力に欠けており、Lazy Reasoningに繋がる。
自己蒸留と多様性を考慮した強化学習を通じて,LEMのタスク分解推論能力にインセンティブを与える2段階のトレーニングフレームワークを提案する。
D-COREは、さまざまなベンチマークとモデルスケールで堅牢なツール使用の改善を実現している。
論文 参考訳(メタデータ) (2026-02-02T14:36:15Z) - Can David Beat Goliath? On Multi-Hop Reasoning with Resource-Constrained Agents [36.29651446001057]
資源制約下では,小言語モデルは強いマルチホップ推論を実現することができることを示す。
DAVID-GRPOは、最小限の監督で早期学習を安定化する予算効率の高いRLフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T13:31:28Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。