Fugu-MT 論文翻訳(概要): Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

論文の概要: Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

arxiv url: http://arxiv.org/abs/2412.09413v2
Date: Sun, 22 Dec 2024 10:44:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 17:32:08.697898
Title: Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
Title（参考訳）: Imitate, Explore, and Self-Improve: Slow-thinking Reasoning Systems の報告
Authors: Yingqian Min, Zhipeng Chen, Jinhao Jiang, Jie Chen, Jia Deng, Yiwen Hu, Yiru Tang, Jiapeng Wang, Xiaoxue Cheng, Huatong Song, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen,
Abstract要約: o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
参考スコア（独自算出の注目度）: 92.89673285398521
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, slow-thinking reasoning systems, such as o1, have demonstrated remarkable capabilities in solving complex reasoning tasks. These systems typically engage in an extended thinking process before responding to a query, allowing them to generate more thorough, accurate, and well-reasoned solutions. These systems are primarily developed and maintained by industry, with their core techniques not publicly disclosed. In response, an increasing number of studies from the research community aim to explore the technical foundations underlying these powerful reasoning systems. Building on these prior efforts, this paper presents a reproduction report on implementing o1-like reasoning systems. We introduce an ``imitate, explore, and self-improve'' framework, denoted as \textbf{STILL-2}, as our primary technical approach to train the reasoning model. In the initial phase, we use distilled long-form thought data to fine-tune the reasoning model, enabling it to invoke a slow-thinking mode. The model is then encouraged to explore challenging problems by generating multiple rollouts, which can result in increasingly more high-quality trajectories that lead to correct answers. Furthermore, the model undergoes self-improvement by iteratively refining its training dataset. To verify the effectiveness of this approach, we conduct extensive experiments on three challenging benchmarks. The experimental results demonstrate that our approach achieves competitive performance compared to industry-level reasoning systems on these benchmarks.
Abstract（参考訳）: 近年、o1のようなゆっくり考えられた推論システムは、複雑な推論タスクを解く際、顕著な能力を示している。これらのシステムは通常、クエリに応答する前に拡張思考プロセスに従事し、より徹底的で正確で適切なソリューションを生成することができる。これらのシステムは主として産業によって開発・維持されており、その中核となる技術は公表されていない。これに対し,研究コミュニティからは,これらの強力な推論システムの基礎となる技術基盤を探究する研究が増えている。本報告では,これらの先行研究に基づいて,o1ライクな推論システムの実装に関する再生レポートを示す。推論モデルをトレーニングするための主要な技術的アプローチとして,‘textbf{STILL-2}’と表記される‘imitate, explore, and self-improve’フレームワークを紹介した。最初の段階では、蒸留したロングフォームの思考データを用いて推論モデルを微調整し、スロー思考モードを起動する。このモデルでは、複数のロールアウトを生成して困難な問題を探索することが奨励され、その結果、より高品質な軌道が正しい答えにつながる可能性がある。さらに、モデルはトレーニングデータセットを反復的に精錬することで自己改善を行う。提案手法の有効性を検証するため,3つの試行錯誤ベンチマークについて広範な実験を行った。実験により,本手法は,これらのベンチマークにおける産業レベルの推論システムと比較して,競争性能が向上することを示した。

関連論文リスト

Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文参考訳（メタデータ） (2025-08-04T06:54:31Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文参考訳（メタデータ） (2025-04-21T18:10:38Z)
Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文参考訳（メタデータ） (2025-04-13T16:26:56Z)
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文参考訳（メタデータ） (2025-03-27T15:36:30Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [18.960920426485163]
自己改善は、パフォーマンスを向上させる主要な方法として現れています。本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。 B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
論文参考訳（メタデータ） (2024-12-23T03:58:34Z)
REL: Working out is all you need [20.65423513616306]
我々はOpenAIのO1モデルが、明らかに人間的な方法で問題解決にアプローチしていることを観察する。これらの洗練された推論機能は、他の最先端の言語モデルでは特に欠落している。
論文参考訳（メタデータ） (2024-12-05T22:32:01Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。 MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文参考訳（メタデータ） (2023-11-23T17:09:48Z)
QAGCN: Answering Multi-Relation Questions via Single-Step Implicit Reasoning over Knowledge Graphs [12.354648004427824]
マルチリレーション質問応答(QA)は難しい課題である。 KGに対する明示的な多段階推論を持つ最近の手法はこの課題で顕著に用いられている。マルチリレーショナルQAは、エンド・ツー・エンドのシングルステップの暗黙の推論によって達成できると論じる。
論文参考訳（メタデータ） (2022-06-03T21:01:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。