論文の概要: ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context
- arxiv url: http://arxiv.org/abs/2507.00417v1
- Date: Tue, 01 Jul 2025 04:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.266427
- Title: ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context
- Title(参考訳): ASTRO:インコンテキストのリフレクションとバックトラックによる推論のための言語モデル
- Authors: Joongwon Kim, Anirudh Goyal, Liang Tan, Hannaneh Hajishirzi, Srinivasan Iyer, Tianlu Wang,
- Abstract要約: ASTROは,検索アルゴリズムのような推論のために,言語モデルをトレーニングするためのフレームワークである。
ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.4%,AMC 2023では26.9%,AIME 2024では20.0%,絶対的な性能向上を達成した。
- 参考スコア(独自算出の注目度): 66.15505423059234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce ASTRO, the "Autoregressive Search-Taught Reasoner", a framework for training language models to reason like search algorithms, explicitly leveraging self-reflection, backtracking, and exploration in their outputs. Recently, training large language models (LLMs) via reinforcement learning (RL) has led to the advent of reasoning models with greatly enhanced reasoning capabilities. Open-source replications of reasoning models, while successful, build upon models that already exhibit strong reasoning capabilities along with search behavior observed even before RL. As a result, it is yet unclear how to boost the reasoning capabilities of other non-reasoner models including Llama 3. ASTRO teaches such models to internalize structured search behavior through a synthetic dataset derived from Monte Carlo Tree Search (MCTS) over mathematical problem-solving trajectories. By converting search traces into natural language chain-of-thoughts that capture both successes and recoveries from failure, ASTRO bootstraps models with a rich prior for exploration during RL. We finetune our models on these search-derived traces and further improve performance via RL with verifiable rewards. We apply ASTRO to the Llama 3 family of models and achieve absolute performance gains of 16.0% on MATH-500, 26.9% on AMC 2023, and 20.0% on AIME 2024, especially improving upon challenging problems that require iterative correction. Our results demonstrate that search-inspired training offers a principled way to instill robust reasoning capabilities into open LLMs.
- Abstract(参考訳): ASTRO(Autoregressive Search-Taught Reasoner)は、検索アルゴリズムのように推論し、自己回帰、バックトラック、アウトプットの探索を明示的に活用する言語モデルを訓練するためのフレームワークである。
近年,強化学習(RL)による大規模言語モデル(LLM)の訓練が,推論能力を大幅に向上した推論モデルの出現につながっている。
推論モデルのオープンソースレプリケーションは成功したが、すでに強力な推論能力を持つモデルと、RL以前にも観察された探索挙動の上に構築されている。
結果として、Llama 3を含む他の非領域モデルの推論能力をどのように向上させるかは、まだ不明である。
ASTROは、モンテカルロ木探索(MCTS)から派生した合成データセットを通じて、数学的問題解決軌道上で構造化された探索挙動を内部化するモデルを教える。
検索トレースを自然言語のチェーンに変換することで、成功と失敗からの回復の両方をキャプチャする。
我々は、これらの検索由来のトレースにモデルを精査し、検証可能な報酬でRLによるパフォーマンスをさらに向上する。
ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.0%,AMC 2023では26.9%,AIME 2024では20.0%,特に反復補正を必要とする問題に対して,絶対的な性能向上を実現した。
この結果から,検索にインスパイアされた学習は,オープンLLMに頑健な推論機能を組み込むための原則的方法であることが示された。
関連論文リスト
- Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions [100.41062461003389]
フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
論文 参考訳(メタデータ) (2025-06-10T15:51:16Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。