論文の概要: Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2504.04383v2
- Date: Tue, 15 Apr 2025 14:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 06:48:39.996675
- Title: Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning
- Title(参考訳): Retro-Search: より深く効率的な推論のための未解決の道を探る
- Authors: Ximing Lu, Seungju Han, David Acuna, Hyunwoo Kim, Jaehun Jung, Shrimai Prabhumoye, Niklas Muennighoff, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi,
- Abstract要約: MCTSにインスパイアされた検索アルゴリズムであるRetro-Searchを導入し,大規模モデルから高品質な推論経路を抽出する。
Retro-Searchは、より良い、しかし短いトレースを見つけるための推論パスをふりかえりに修正する。
当社のアプローチでは,モデルが独自のRetro-Search-edトレースに基づいて微調整される自己改善と,弱いから強い改善の2つのユースケースを実現しています。
- 参考スコア(独自算出の注目度): 84.2749507577386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models exhibit remarkable reasoning capabilities via long, elaborate reasoning trajectories. Supervised fine-tuning on such reasoning traces, also known as distillation, can be a cost-effective way to boost reasoning capabilities of student models. However, empirical observations reveal that these reasoning trajectories are often suboptimal, switching excessively between different lines of thought, resulting in under-thinking, over-thinking, and even degenerate responses. We introduce Retro-Search, an MCTS-inspired search algorithm, for distilling higher quality reasoning paths from large reasoning models. Retro-Search retrospectively revises reasoning paths to discover better, yet shorter traces, which can then lead to student models with enhanced reasoning capabilities with shorter, thus faster inference. Our approach can enable two use cases: self-improvement, where models are fine-tuned on their own Retro-Search-ed thought traces, and weak-to-strong improvement, where a weaker model revises stronger model's thought traces via Retro-Search. For self-improving, R1-distill-7B, fine-tuned on its own Retro-Search-ed traces, reduces the average reasoning length by 31.2% while improving performance by 7.7% across seven math benchmarks. For weak-to-strong improvement, we retrospectively revise R1-671B's traces from the OpenThoughts dataset using R1-distill-32B as the Retro-Search-er, a model 20x smaller. Qwen2.5-32B, fine-tuned on this refined data, achieves performance comparable to R1-distill-32B, yielding an 11.3% reduction in reasoning length and a 2.4% performance improvement compared to fine-tuning on the original OpenThoughts data. Our work counters recently emergent viewpoints that question the relevance of search algorithms in the era of large reasoning models, by demonstrating that there are still opportunities for algorithmic advancements, even for frontier models.
- Abstract(参考訳): 大きな推論モデルは、長く精巧な推論軌道を介して顕著な推論能力を示す。
このような推論トレースの監視された微調整(蒸留とも呼ばれる)は、学生モデルの推論能力を高めるためのコスト効率のよい方法である。
しかし、実証的な観察により、これらの推論軌跡は、しばしば準最適であり、異なる考えの線を過度に切り替え、過度に考え、過度に考え、そして退化する応答をもたらすことが判明した。
MCTSにインスパイアされた検索アルゴリズムであるRetro-Searchを導入し,大規模な推論モデルから高品質な推論経路を抽出する。
Retro-Searchは、より良く、より短いトレースを見つけるための推論パスをふりかえりに修正する。
我々のアプローチは、自己改善(Self-improvement)という、モデルが独自のRetro-Search-ed思考トレースに基づいて微調整される、弱いモデルがRetro-Searchを介してより強力なモデルの思考トレースを更新する、という2つのユースケースを可能にします。
自己改善のために、R1-distill-7Bは独自のRetro-Search-edトレースを微調整し、平均推論長を31.2%削減し、7つのベンチマークでパフォーマンスを7.7%改善した。
R1-distill-32Bを20倍小さいRetro-Search-erとして,OpenThoughtsデータセットからR1-671Bのトレースを遡って修正する。
この改良されたデータに基づいて微調整されたQwen2.5-32Bは、R1-distill-32Bに匹敵する性能を達成し、推論長を11.3%削減し、2.4%の性能改善を実現した。
我々の研究は、大規模な推論モデルの時代における検索アルゴリズムの関連性に疑問を呈し、フロンティアモデルでさえもまだアルゴリズムの進歩の機会があることを示した。
関連論文リスト
- ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.170732359523702]
OpenAI o3やDeepSeek-R1のような推論モデルは、推論集約的なタスクに対して強力なパフォーマンスを示している。
長い推論トレースは、複雑な問題に対する解経路のより徹底的な探索を促進する。
ShorterBetterは、推論言語モデルによる最適なCoT長の発見を可能にする、シンプルで効果的な強化学習手法である。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time [14.963731580129892]
推論レベルでの推論において,大規模推論モデルによるより小さな推論のガイドを可能にする,トレーニング不要なフレームワークであるSpeculative Thinkingを紹介した。
より有能なモデルに回帰ステップを戦略的に委譲することにより,提案手法は推論モデルの推論精度を向上し,出力を短縮する。
論文 参考訳(メタデータ) (2025-04-12T21:25:32Z) - To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning [31.21491548356213]
バックトラックは、長いチェーン・オブ・シント(CoT)生成による逐次線形化探索を可能にすることによって、テスト時間計算を自然にスケールする。
シーケンシャル検索の普及にもかかわらず、並列サンプリングよりも優位性はよく分かっていない。
バックトラック機能を持つモデルはRL微調整の恩恵を受けるが,バックトラック機能を持たないモデルは限定的かつ混合的なゲインを示す。
論文 参考訳(メタデータ) (2025-04-09T17:12:49Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Reverse Thinking Makes LLMs Stronger Reasoners [90.42357659849215]
RevThinkは、データ拡張と学習目的からなるフレームワークである。
12のデータセットに対する実験では、学生モデルのゼロショットのパフォーマンスよりも平均13.53%改善されている。
RevThinkはまた、アウト・オブ・ディストリビューション・ホールドアウトデータセットへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-11-29T17:27:05Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。