論文の概要: Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
- arxiv url: http://arxiv.org/abs/2412.09413v2
- Date: Sun, 22 Dec 2024 10:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:38.323084
- Title: Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
- Title(参考訳): Imitate, Explore, and Self-Improve: Slow-thinking Reasoning Systems の報告
- Authors: Yingqian Min, Zhipeng Chen, Jinhao Jiang, Jie Chen, Jia Deng, Yiwen Hu, Yiru Tang, Jiapeng Wang, Xiaoxue Cheng, Huatong Song, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen,
- Abstract要約: o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
- 参考スコア(独自算出の注目度): 92.89673285398521
- License:
- Abstract: Recently, slow-thinking reasoning systems, such as o1, have demonstrated remarkable capabilities in solving complex reasoning tasks. These systems typically engage in an extended thinking process before responding to a query, allowing them to generate more thorough, accurate, and well-reasoned solutions. These systems are primarily developed and maintained by industry, with their core techniques not publicly disclosed. In response, an increasing number of studies from the research community aim to explore the technical foundations underlying these powerful reasoning systems. Building on these prior efforts, this paper presents a reproduction report on implementing o1-like reasoning systems. We introduce an ``imitate, explore, and self-improve'' framework, denoted as \textbf{STILL-2}, as our primary technical approach to train the reasoning model. In the initial phase, we use distilled long-form thought data to fine-tune the reasoning model, enabling it to invoke a slow-thinking mode. The model is then encouraged to explore challenging problems by generating multiple rollouts, which can result in increasingly more high-quality trajectories that lead to correct answers. Furthermore, the model undergoes self-improvement by iteratively refining its training dataset. To verify the effectiveness of this approach, we conduct extensive experiments on three challenging benchmarks. The experimental results demonstrate that our approach achieves competitive performance compared to industry-level reasoning systems on these benchmarks.
- Abstract(参考訳): 近年、o1のようなゆっくり考えられた推論システムは、複雑な推論タスクを解く際、顕著な能力を示している。
これらのシステムは通常、クエリに応答する前に拡張思考プロセスに従事し、より徹底的で正確で適切なソリューションを生成することができる。
これらのシステムは主として産業によって開発・維持されており、その中核となる技術は公表されていない。
これに対し,研究コミュニティからは,これらの強力な推論システムの基礎となる技術基盤を探究する研究が増えている。
本報告では,これらの先行研究に基づいて,o1ライクな推論システムの実装に関する再生レポートを示す。
推論モデルをトレーニングするための主要な技術的アプローチとして,‘textbf{STILL-2}’と表記される‘imitate, explore, and self-improve’フレームワークを紹介した。
最初の段階では、蒸留したロングフォームの思考データを用いて推論モデルを微調整し、スロー思考モードを起動する。
このモデルでは、複数のロールアウトを生成して困難な問題を探索することが奨励され、その結果、より高品質な軌道が正しい答えにつながる可能性がある。
さらに、モデルはトレーニングデータセットを反復的に精錬することで自己改善を行う。
提案手法の有効性を検証するため,3つの試行錯誤ベンチマークについて広範な実験を行った。
実験により,本手法は,これらのベンチマークにおける産業レベルの推論システムと比較して,競争性能が向上することを示した。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Explainable data-driven modeling via mixture of experts: towards
effective blending of grey and black-box models [6.331947318187792]
専門家の混成」の理論的根拠に基づく包括的枠組みを提案する。
このアプローチは、多様なローカルモデルのデータベースの融合を可能にする。
我々は,解釈可能性を高めるために,専門家の組み合わせの急激な変化を罰する。
論文 参考訳(メタデータ) (2024-01-30T15:53:07Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [60.244412212130264]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z) - Towards Robust and Reliable Algorithmic Recourse [11.887537452826624]
モデルシフトに堅牢なリコースを見つけるための敵対的トレーニングを活用する新しいフレームワークであるRObust Algorithmic Recourse(ROAR)を提案します。
また,モデルシフトにロバストなリコースの構築の重要性を強調する詳細な理論解析を行う。
論文 参考訳(メタデータ) (2021-02-26T17:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。