論文の概要: Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2504.04383v1
- Date: Sun, 06 Apr 2025 06:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:34.807439
- Title: Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning
- Title(参考訳): Retro-Search: より深く効率的な推論のための未解決の道を探る
- Authors: Ximing Lu, Seungju Han, David Acuna, Hyunwoo Kim, Jaehun Jung, Shrimai Prabhumoye, Niklas Muennighoff, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi,
- Abstract要約: MCTSにインスパイアされた検索アルゴリズムであるRetro-Searchを導入し,大規模モデルから高品質な推論経路を抽出する。
Retro-Searchは、より良い、しかし短いトレースを見つけるための推論パスをふりかえりに修正する。
当社のアプローチでは,モデルが独自のRetro-Search-edトレースに基づいて微調整される自己改善と,弱いから強い改善の2つのユースケースを実現しています。
- 参考スコア(独自算出の注目度): 84.2749507577386
- License:
- Abstract: Large reasoning models exhibit remarkable reasoning capabilities via long, elaborate reasoning trajectories. Supervised fine-tuning on such reasoning traces, also known as distillation, can be a cost-effective way to boost reasoning capabilities of student models. However, empirical observations reveal that these reasoning trajectories are often suboptimal, switching excessively between different lines of thought, resulting in under-thinking, over-thinking, and even degenerate responses. We introduce Retro-Search, an MCTS-inspired search algorithm, for distilling higher quality reasoning paths from large reasoning models. Retro-Search retrospectively revises reasoning paths to discover better, yet shorter traces, which can then lead to student models with enhanced reasoning capabilities with shorter, thus faster inference. Our approach can enable two use cases: self-improvement, where models are fine-tuned on their own Retro-Search-ed thought traces, and weak-to-strong improvement, where a weaker model revises stronger model's thought traces via Retro-Search. For self-improving, R1-distill-7B, fine-tuned on its own Retro-Search-ed traces, reduces the average reasoning length by 31.2% while improving performance by 7.7% across seven math benchmarks. For weak-to-strong improvement, we retrospectively revise R1-671B's traces from the OpenThoughts dataset using R1-distill-32B as the Retro-Search-er, a model 20x smaller. Qwen2.5-32B, fine-tuned on this refined data, achieves performance comparable to R1-distill-32B, yielding an 11.3% reduction in reasoning length and a 2.4% performance improvement compared to fine-tuning on the original OpenThoughts data. Our work counters recently emergent viewpoints that question the relevance of search algorithms in the era of large reasoning models, by demonstrating that there are still opportunities for algorithmic advancements, even for frontier models.
- Abstract(参考訳): 大きな推論モデルは、長く精巧な推論軌道を介して顕著な推論能力を示す。
このような推論トレースの監視された微調整(蒸留とも呼ばれる)は、学生モデルの推論能力を高めるためのコスト効率のよい方法である。
しかし、実証的な観察により、これらの推論軌跡は、しばしば準最適であり、異なる考えの線を過度に切り替え、過度に考え、過度に考え、そして退化する応答をもたらすことが判明した。
MCTSにインスパイアされた検索アルゴリズムであるRetro-Searchを導入し,大規模な推論モデルから高品質な推論経路を抽出する。
Retro-Searchは、より良く、より短いトレースを見つけるための推論パスをふりかえりに修正する。
我々のアプローチは、自己改善(Self-improvement)という、モデルが独自のRetro-Search-ed思考トレースに基づいて微調整される、弱いモデルがRetro-Searchを介してより強力なモデルの思考トレースを更新する、という2つのユースケースを可能にします。
自己改善のために、R1-distill-7Bは独自のRetro-Search-edトレースを微調整し、平均推論長を31.2%削減し、7つのベンチマークでパフォーマンスを7.7%改善した。
R1-distill-32Bを20倍小さいRetro-Search-erとして,OpenThoughtsデータセットからR1-671Bのトレースを遡って修正する。
この改良されたデータに基づいて微調整されたQwen2.5-32Bは、R1-distill-32Bに匹敵する性能を達成し、推論長を11.3%削減し、2.4%の性能改善を実現した。
我々の研究は、大規模な推論モデルの時代における検索アルゴリズムの関連性に疑問を呈し、フロンティアモデルでさえもまだアルゴリズムの進歩の機会があることを示した。
関連論文リスト
- Reverse Thinking Makes LLMs Stronger Reasoners [90.42357659849215]
RevThinkは、データ拡張と学習目的からなるフレームワークである。
12のデータセットに対する実験では、学生モデルのゼロショットのパフォーマンスよりも平均13.53%改善されている。
RevThinkはまた、アウト・オブ・ディストリビューション・ホールドアウトデータセットへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-11-29T17:27:05Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - Beyond Slow Signs in High-fidelity Model Extraction [18.330719989672442]
深層ニューラルネットワークは、訓練に費用がかかり、知的財産価値が豊富である。
それまでの攻撃は、少なくとも3つの隠蔽層を持つランダムデータで訓練されたモデルに対して、逆エンジニアリングモデルパラメーターをfloat64の精度まで向上させることに成功した。
我々は,従来の手法を統合した統一最適化を導入し,計算ツールが性能に著しく影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-14T13:24:07Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。