論文の概要: Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns
- arxiv url: http://arxiv.org/abs/2509.21124v2
- Date: Fri, 26 Sep 2025 03:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 12:12:20.35375
- Title: Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns
- Title(参考訳): 思考パターンの多元鎖学習による基礎モデルの推論可能性の拡大
- Authors: Xuemiao Zhang, Can Ren, Chengying Tu, Rongxiang Weng, Shuo Wang, Hongfei Yan, Jingang Wang, Xunliang Cai,
- Abstract要約: 我々は,基礎モデルの推論可能性について,疑問に正しく答えるために必要な独立した試みの数の逆として初めて定義する。
次に、高価値推論パターンを付加した多種多様なデータを活用し、推論可能性を拡張することを提案する。
85A6B Mixture-of-Experts (MoE) モデルは, AIME 2024 と 2025 の挑戦に対して 9.58% 改善可能である。
- 参考スコア(独自算出の注目度): 34.16978953994544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large reasoning models for challenging mathematical reasoning has been driven by reinforcement learning (RL). Incorporating long chain-of-thought (CoT) data during mid-training has also been shown to substantially improve reasoning depth. However, current approaches often utilize CoT data indiscriminately, leaving open the critical question of which data types most effectively enhance model reasoning capabilities. In this paper, we define the foundation model's reasoning potential for the first time as the inverse of the number of independent attempts required to correctly answer the question, which is strongly correlated with the final model performance. We then propose utilizing diverse data enriched with high-value reasoning patterns to expand the reasoning potential. Specifically, we abstract atomic reasoning patterns from CoT sequences, characterized by commonality and inductive capabilities, and use them to construct a core reference set enriched with valuable reasoning patterns. Furthermore, we propose a dual-granularity algorithm involving chains of reasoning patterns and token entropy, efficiently selecting high-value CoT data (CoTP) from the data pool that aligns with the core set, thereby training models to master reasoning effectively. Only 10B-token CoTP data enables the 85A6B Mixture-of-Experts (MoE) model to improve by 9.58% on the challenging AIME 2024 and 2025, and to raise the upper bound of downstream RL performance by 7.81%.
- Abstract(参考訳): 数学推論に挑戦する大規模推論モデルの最近の進歩は強化学習(RL)によって進められている。
トレーニング中の長いチェーン・オブ・シークレット(CoT)データを組み込むことで推論深度を大幅に改善することが示されている。
しかし、現在のアプローチではCoTデータを非差別的に利用することが多く、どのデータ型がモデル推論能力を最も効果的に強化するかという重要な疑問が残されている。
本稿では,基礎モデルの推論ポテンシャルを,最終モデルの性能と強く相関している疑問に正しく答えるために必要な独立試行回数の逆数として,初めて定義する。
次に、高価値推論パターンを付加した多種多様なデータを活用し、推論可能性を拡張することを提案する。
具体的には、共通性と帰納的能力に特徴付けられるCoT配列から原子推論パターンを抽象化し、それらを用いて、価値ある推論パターンに富んだコア参照セットを構築する。
さらに、コアセットと整合するデータプールから高値CoTデータ(CoTP)を効率よく選択し、モデルに推論を習得する。
85A6B Mixture-of-Experts (MoE) モデルは、挑戦的なAIME 2024と2025で9.58%改善され、下流RLの性能は7.81%向上した。
関連論文リスト
- The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。
我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。
結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文 参考訳(メタデータ) (2025-07-14T01:14:50Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z) - Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models [23.34070841541423]
LS-Mixture SFT(Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning)を提案する。
LS-Mixture SFTでトレーニングしたモデルと直接SFTでトレーニングしたモデルでは,平均精度が2.3%向上した。
この研究は、教師付き微調整によって推論能力を持つ非推論モデルを実現するアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-06T12:18:11Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。