論文の概要: Reverse-Engineered Reasoning for Open-Ended Generation
- arxiv url: http://arxiv.org/abs/2509.06160v1
- Date: Sun, 07 Sep 2025 18:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.880041
- Title: Reverse-Engineered Reasoning for Open-Ended Generation
- Title(参考訳): リバースエンジニアリングによるオープンエンドジェネレーションの推論
- Authors: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin,
- Abstract要約: Reverse-Engineered Reasoning (REER)を紹介する。
REERは、試行錯誤や模倣を通じて推論プロセスを構築する代わりに、既知の優れたソリューションから逆向きに働き、それらを生成可能な潜伏的でステップバイステップの深い推論プロセスを発見します。
当社のモデルであるDeepWriter-8Bは、このデータに基づいてトレーニングを行い、強力なオープンソースベースラインを超えるだけでなく、GPT-4oやClaude 3.5といったプロプライエタリなモデルと競合するパフォーマンスも達成しています。
- 参考スコア(独自算出の注目度): 50.35487467267016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the ``deep reasoning'' paradigm has spurred significant advances in verifiable domains like mathematics, its application to open-ended, creative generation remains a critical challenge. The two dominant methods for instilling reasoning -- reinforcement learning (RL) and instruction distillation -- falter in this area; RL struggles with the absence of clear reward signals and high-quality reward models, while distillation is prohibitively expensive and capped by the teacher model's capabilities. To overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a new paradigm that fundamentally shifts the approach. Instead of building a reasoning process ``forwards'' through trial-and-error or imitation, REER works ``backwards'' from known-good solutions to computationally discover the latent, step-by-step deep reasoning process that could have produced them. Using this scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks. Our model, DeepWriter-8B, trained on this data, not only surpasses strong open-source baselines but also achieves performance competitive with, and at times superior to, leading proprietary models like GPT-4o and Claude 3.5.
- Abstract(参考訳): 深い推論」パラダイムは数学のような検証可能な領域において大きな進歩をもたらしたが、そのオープンエンドな創造的生成への応用は依然として重要な課題である。
強化学習(RL)と指導蒸留(RL)という2つの主要な推論方法がこの分野で失敗し、RLは明確な報酬信号と高品質の報酬モデルがないのに苦しむ一方で、蒸留は違法に高価であり、教師モデルの能力に支えられている。
これらの制限を克服するために、アプローチを根本的にシフトさせる新しいパラダイムであるReverse-Engineered Reasoning (REER)を導入する。
試行錯誤や模倣による推論プロセス ``forwards'' を構築する代わりに、REER は既知の優れたソリューションから ``backwards' を処理して、それらを生成できる潜在的でステップバイステップの深い推論プロセスを計算的に発見する。
このスケーラブルで勾配のないアプローチを使って、オープンソースのDeepWriting-20Kをキュレートします。
当社のモデルであるDeepWriter-8Bは、このデータに基づいてトレーニングを行い、強力なオープンソースベースラインを超えるだけでなく、GPT-4oやClaude 3.5といったプロプライエタリなモデルと競合するパフォーマンスも達成しています。
関連論文リスト
- Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance [39.88432082145946]
本稿では,プロセス・リワード・モデルを用いた新しいフレームワークSCOPEを提案する。
本手法は,部分的正しいロールアウトに精密な改良を加えて,部分的正しい軌道を効果的に回収し,多様性スコアを13.5%向上させる。
提案手法は,数学推論において平均46.6%の精度を達成し,分布外推論タスクにおいて53.4%の精度でロバストな一般化を示す。
論文 参考訳(メタデータ) (2026-02-27T15:49:23Z) - Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-12T04:15:46Z) - Beyond Alignment: Expanding Reasoning Capacity via Manifold-Reshaping Policy Optimization [1.974921946982281]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力の向上に成功している。
近年の研究では、RLが推論能力を真に拡張するか、あるいは既存の潜在能力を単に整合させるかが疑問視されており、探索は事前訓練されたモデルの低ランクバイアス多様体に限られていると主張している。
我々は,LLMの推論空間を根本的に再構成する幾何学的フレームワークであるマニフォールド変換ポリシー最適化(MRPO)を提案する。
論文 参考訳(メタデータ) (2026-01-30T05:38:44Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。
これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。
この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文 参考訳(メタデータ) (2025-10-22T17:41:30Z) - ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context [66.15505423059234]
ASTROは,検索アルゴリズムのような推論のために,言語モデルをトレーニングするためのフレームワークである。
ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.4%,AMC 2023では26.9%,AIME 2024では20.0%,絶対的な性能向上を達成した。
論文 参考訳(メタデータ) (2025-07-01T04:10:15Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [33.807927649100805]
大規模言語モデル(LLM)の推論能力向上のための重要な手法として強化学習(RL)が登場した。
RLアプローチは、スパース結果に基づく報酬への依存と、探索のインセンティブを高めるための不十分なメカニズムにより、重要な制限に直面している。
固有モチベーション guidEd ExploratioN meThOd foR LLM Reasoning (i-MENTOR) を提案する。
i-MENTORは、トークンレベルの戦略におけるバイアスを軽減する軌道対応探索報酬、大きなアクション空間における探索と利用を安定化するための動的報酬スケーリング、そして、維持する有利な報酬実装の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities [45.989423626537985]
強化学習(Reinforcement Learning, RL)は, 推論モデルの学習に有効な手法である。
外部の高レベルガイダンス(「思考パターン」)を取り入れてRLを強化するフレームワークであるTAPOを提案する。
AIMEではGRPOが99%,AMCでは41%,Minerva Mathでは17%,それぞれ有意に向上した。
論文 参考訳(メタデータ) (2025-05-21T16:06:10Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。