論文の概要: Deep Self-Evolving Reasoning
- arxiv url: http://arxiv.org/abs/2510.17498v1
- Date: Mon, 20 Oct 2025 12:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.050864
- Title: Deep Self-Evolving Reasoning
- Title(参考訳): 深層自己進化推論
- Authors: Zihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang,
- Abstract要約: 私たちは、Deep Self-Evolving Reasoning (DSER)と呼ばれる確率的パラダイムによって、推論の限界が大幅に拡張できることを示します。
AIME 2024-2025ベンチマークでは、DSERは9つの未解決問題のうち5つを解決し、全体的なパフォーマンスを向上する。
本研究は,強力で本質的な自己進化能力を持つ次世代モデルを開発するための明確な研究課題を確立するものである。
- 参考スコア(独自算出の注目度): 22.934253026226155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form chain-of-thought reasoning has become a cornerstone of advanced reasoning in large language models. While recent verification-refinement frameworks have enabled proprietary models to solve Olympiad-level problems, their effectiveness hinges on strong, reliable verification and correction capabilities, which remain fragile in open-weight, smaller-scale models. This work demonstrates that even with weak verification and refinement capabilities on hard tasks, the reasoning limits of such models can be substantially extended through a probabilistic paradigm we call Deep Self-Evolving Reasoning (DSER). We conceptualize iterative reasoning as a Markov chain, where each step represents a stochastic transition in the solution space. The key insight is that convergence to a correct solution is guaranteed as long as the probability of improvement marginally exceeds that of degradation. By running multiple long-horizon, self-evolving processes in parallel, DSER amplifies these small positive tendencies, enabling the model to asymptotically approach correct answers. Empirically, we apply DSER to the DeepSeek-R1-0528-Qwen3-8B model. On the challenging AIME 2024-2025 benchmark, DSER solves 5 out of 9 previously unsolvable problems and boosts overall performance, enabling this compact model to surpass the single-turn accuracy of its 600B-parameter teacher through majority voting. Beyond its immediate utility for test-time scaling, the DSER framework serves to diagnose the fundamental limitations of current open-weight reasoners. By clearly delineating their shortcomings in self-verification, refinement, and stability, our findings establish a clear research agenda for developing next-generation models with powerful, intrinsic self-evolving capabilities.
- Abstract(参考訳): ロングフォーム・チェーン・オブ・ソート推論は、大規模言語モデルにおける高度な推論の基盤となっている。
最近の検証リファインメントフレームワークは、Olympiadレベルの問題を解決するためにプロプライエタリなモデルを有効にしているが、その有効性は、オープンウェイトで小規模のモデルでは脆弱な、強力な信頼性のある検証と修正能力に依存している。
この研究は、ハードタスクにおける弱い検証と改善能力があるとしても、そのようなモデルの推論限界は、私たちがディープ自己進化推論(Deep Self-Evolving Reasoning, DSER)と呼ぶ確率的パラダイムによって大幅に拡張できることを示した。
反復推論をマルコフ連鎖として概念化し、各ステップは解空間における確率的遷移を表す。
鍵となる洞察は、改善の確率が劣化の確率を超える限り、正しい解への収束が保証されるということである。
複数の長期的自己進化過程を並列に実行することにより、DSERはこれらの小さな正の傾向を増幅し、モデルが漸近的に正しい答えに近づくことを可能にする。
DSERをDeepSeek-R1-0528-Qwen3-8Bモデルに適用する。
AIME 2024-2025ベンチマークでは、DSERは9つの未解決問題のうち5つを解決し、全体的なパフォーマンスを向上し、このコンパクトモデルが600Bパラメーターの教師のシングルターン精度を多数決で上回ることを可能にする。
DSERフレームワークは、テストタイムスケーリングの直接的なユーティリティ以外に、現在のオープンウェイト推論の基本的な制限を診断するのに役立ちます。
本研究は, 自己検証, 洗練, 安定性の欠点を明確化することによって, 強力で本質的な自己進化能力を持つ次世代モデルを開発するための明確な研究課題を定めている。
関連論文リスト
- Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。