論文の概要: Reverse-Engineered Reasoning for Open-Ended Generation
- arxiv url: http://arxiv.org/abs/2509.06160v1
- Date: Sun, 07 Sep 2025 18:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.880041
- Title: Reverse-Engineered Reasoning for Open-Ended Generation
- Title(参考訳): リバースエンジニアリングによるオープンエンドジェネレーションの推論
- Authors: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin,
- Abstract要約: Reverse-Engineered Reasoning (REER)を紹介する。
REERは、試行錯誤や模倣を通じて推論プロセスを構築する代わりに、既知の優れたソリューションから逆向きに働き、それらを生成可能な潜伏的でステップバイステップの深い推論プロセスを発見します。
当社のモデルであるDeepWriter-8Bは、このデータに基づいてトレーニングを行い、強力なオープンソースベースラインを超えるだけでなく、GPT-4oやClaude 3.5といったプロプライエタリなモデルと競合するパフォーマンスも達成しています。
- 参考スコア(独自算出の注目度): 50.35487467267016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the ``deep reasoning'' paradigm has spurred significant advances in verifiable domains like mathematics, its application to open-ended, creative generation remains a critical challenge. The two dominant methods for instilling reasoning -- reinforcement learning (RL) and instruction distillation -- falter in this area; RL struggles with the absence of clear reward signals and high-quality reward models, while distillation is prohibitively expensive and capped by the teacher model's capabilities. To overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a new paradigm that fundamentally shifts the approach. Instead of building a reasoning process ``forwards'' through trial-and-error or imitation, REER works ``backwards'' from known-good solutions to computationally discover the latent, step-by-step deep reasoning process that could have produced them. Using this scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks. Our model, DeepWriter-8B, trained on this data, not only surpasses strong open-source baselines but also achieves performance competitive with, and at times superior to, leading proprietary models like GPT-4o and Claude 3.5.
- Abstract(参考訳): 深い推論」パラダイムは数学のような検証可能な領域において大きな進歩をもたらしたが、そのオープンエンドな創造的生成への応用は依然として重要な課題である。
強化学習(RL)と指導蒸留(RL)という2つの主要な推論方法がこの分野で失敗し、RLは明確な報酬信号と高品質の報酬モデルがないのに苦しむ一方で、蒸留は違法に高価であり、教師モデルの能力に支えられている。
これらの制限を克服するために、アプローチを根本的にシフトさせる新しいパラダイムであるReverse-Engineered Reasoning (REER)を導入する。
試行錯誤や模倣による推論プロセス ``forwards'' を構築する代わりに、REER は既知の優れたソリューションから ``backwards' を処理して、それらを生成できる潜在的でステップバイステップの深い推論プロセスを計算的に発見する。
このスケーラブルで勾配のないアプローチを使って、オープンソースのDeepWriting-20Kをキュレートします。
当社のモデルであるDeepWriter-8Bは、このデータに基づいてトレーニングを行い、強力なオープンソースベースラインを超えるだけでなく、GPT-4oやClaude 3.5といったプロプライエタリなモデルと競合するパフォーマンスも達成しています。
関連論文リスト
- ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context [66.15505423059234]
ASTROは,検索アルゴリズムのような推論のために,言語モデルをトレーニングするためのフレームワークである。
ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.4%,AMC 2023では26.9%,AIME 2024では20.0%,絶対的な性能向上を達成した。
論文 参考訳(メタデータ) (2025-07-01T04:10:15Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [33.807927649100805]
大規模言語モデル(LLM)の推論能力向上のための重要な手法として強化学習(RL)が登場した。
RLアプローチは、スパース結果に基づく報酬への依存と、探索のインセンティブを高めるための不十分なメカニズムにより、重要な制限に直面している。
固有モチベーション guidEd ExploratioN meThOd foR LLM Reasoning (i-MENTOR) を提案する。
i-MENTORは、トークンレベルの戦略におけるバイアスを軽減する軌道対応探索報酬、大きなアクション空間における探索と利用を安定化するための動的報酬スケーリング、そして、維持する有利な報酬実装の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities [45.989423626537985]
強化学習(Reinforcement Learning, RL)は, 推論モデルの学習に有効な手法である。
外部の高レベルガイダンス(「思考パターン」)を取り入れてRLを強化するフレームワークであるTAPOを提案する。
AIMEではGRPOが99%,AMCでは41%,Minerva Mathでは17%,それぞれ有意に向上した。
論文 参考訳(メタデータ) (2025-05-21T16:06:10Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。