論文の概要: Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
- arxiv url: http://arxiv.org/abs/2412.09413v1
- Date: Thu, 12 Dec 2024 16:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:15.890517
- Title: Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
- Title(参考訳): Imitate, Explore, and Self-Improve: Slow-thinking Reasoning Systems の報告
- Authors: Yingqian Min, Zhipeng Chen, Jinhao Jiang, Jie Chen, Jia Deng, Yiwen Hu, Yiru Tang, Jiapeng Wang, Xiaoxue Cheng, Huatong Song, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen,
- Abstract要約: o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
本報告では,o1ライクな推論システムの実装に関する再生レポートについて述べる。
我々は、推論モデルをトレーニングするための主要な技術的アプローチとして、"類似、探索、自己改善"フレームワークを導入します。
- 参考スコア(独自算出の注目度): 92.89673285398521
- License:
- Abstract: Recently, slow-thinking reasoning systems, such as o1, have demonstrated remarkable capabilities in solving complex reasoning tasks. These systems typically engage in an extended thinking process before responding to a query, allowing them to generate more thorough, accurate, and well-reasoned solutions. These systems are primarily developed and maintained by industry, with their core techniques not publicly disclosed. In response, an increasing number of studies from the research community aim to explore the technical foundations underlying these powerful reasoning systems. Building on these prior efforts, this paper presents a reproduction report on implementing o1-like reasoning systems. We introduce an "imitate, explore, and self-improve" framework as our primary technical approach to train the reasoning model. In the initial phase, we use distilled long-form thought data to fine-tune the reasoning model, enabling it to invoke a slow-thinking mode. The model is then encouraged to explore challenging problems by generating multiple rollouts, which can result in increasingly more high-quality trajectories that lead to correct answers. Furthermore, the model undergoes self-improvement by iteratively refining its training dataset. To verify the effectiveness of this approach, we conduct extensive experiments on three challenging benchmarks. The experimental results demonstrate that our approach achieves competitive performance compared to industry-level reasoning systems on these benchmarks.
- Abstract(参考訳): 近年、o1のようなゆっくり考えられた推論システムは、複雑な推論タスクを解く際、顕著な能力を示している。
これらのシステムは通常、クエリに応答する前に拡張思考プロセスに従事し、より徹底的で正確で適切なソリューションを生成することができる。
これらのシステムは主として産業によって開発・維持されており、その中核となる技術は公表されていない。
これに対し,研究コミュニティからは,これらの強力な推論システムの基礎となる技術基盤を探究する研究が増えている。
本報告では,これらの先行研究に基づいて,o1ライクな推論システムの実装に関する再生レポートを示す。
我々は、推論モデルをトレーニングするための主要な技術的アプローチとして、"類似、探索、自己改善"フレームワークを導入します。
最初の段階では、蒸留したロングフォームの思考データを用いて推論モデルを微調整し、スロー思考モードを起動する。
このモデルでは、複数のロールアウトを生成して困難な問題を探索することが奨励され、その結果、より高品質な軌道が正しい答えにつながる可能性がある。
さらに、モデルはトレーニングデータセットを反復的に精錬することで自己改善を行う。
提案手法の有効性を検証するため,3つの試行錯誤ベンチマークについて広範な実験を行った。
実験により,本手法は,これらのベンチマークにおける産業レベルの推論システムと比較して,競争性能が向上することを示した。
関連論文リスト
- Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [18.960920426485163]
自己改善は、パフォーマンスを向上させる主要な方法として現れています。
本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。
B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
論文 参考訳(メタデータ) (2024-12-23T03:58:34Z) - Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。
SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。
本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-19T08:28:18Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。