論文の概要: SEER: Enhancing Chain-of-Thought Code Generation through Self-Exploring Deep Reasoning
- arxiv url: http://arxiv.org/abs/2510.17130v1
- Date: Mon, 20 Oct 2025 03:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.296414
- Title: SEER: Enhancing Chain-of-Thought Code Generation through Self-Exploring Deep Reasoning
- Title(参考訳): SEER: 自己探索型ディープ推論によるChain-of-Thoughtコード生成の強化
- Authors: Shuzheng Gao, Chaozheng Wang, Cuiyun Gao, Michael R. Lyu,
- Abstract要約: CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は、コードを書く前に高いレベルの推論計画を開発することができる。
コード生成の正確かつ適応的な推論を可能にするSelf-Exploring Deep ReasoningフレームワークであるSEERを提案する。
- 参考スコア(独自算出の注目度): 41.76790935791852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation, the task of creating executable programs from natural language requirements, has recently seen tremendous advances through Chain-of-Thought (CoT) reasoning, which enables Large Language Models (LLMs) to develop high-level reasoning plans before writing code. Recent research has proposed various methods to enhance models' CoT reasoning for code generation such as prompt engineering and supervised fine-tuning. However, existing approaches still face three critical limitations: (1) limited exploration of diverse reasoning paths, which constrains generalization across various programming scenarios, (2) lack of quality assessment for intermediate reasoning steps, which hampers the reliability of the generated plans and code, and (3) the potential negative impact of "overthinking", potentially leading to unnecessarily complex and incorrect solutions. To address these limitations, we frame CoT code generation as a decision making problem and present SEER, a SElf-Exploring deep Reasoning framework that enables accurate and adaptive reasoning for code generation. SEER introduces three key components: (1) Diverse reasoning path exploration, which aims at exploring diverse reasoning paths and annotating intermediate steps without relying on manual experts or closed-source proprietary models; (2) Reasoning quality-aware model training, which trains a policy model for generating candidate reasoning steps and a value model for assessing their quality; and (3) Adaptive CoT reasoning, which dynamically switches between direct generation and step-by-step reasoning for different problems.
- Abstract(参考訳): 自然言語の要求から実行可能なプログラムを作成するためのタスクであるコード生成は、最近、Chain-of-Thought(CoT)推論を通じて大きな進歩を遂げた。
近年の研究では、プロンプトエンジニアリングや教師付き微調整など、コード生成のためのCoT推論を強化する様々な手法が提案されている。
しかし、既存のアプローチは、(1)様々なプログラミングシナリオにまたがる一般化を制約する多様な推論経路の限られた探索、(2)生成された計画やコードの信頼性を損なう中間推論ステップの品質評価の欠如、(3)「再考」の潜在的なネガティブな影響により、必要以上に複雑で誤った解決策がもたらされる、という3つの重大な制限に直面している。
このような制限に対処するため,我々はCoTコード生成を意思決定問題とみなし,コード生成の正確かつ適応的な推論を可能にするSelf-Exploring Deep ReasoningフレームワークであるSEERを提示する。
SEERは,(1)手動の専門家やクローズドソースのプロプライエタリなモデルに頼らず,多様な推論経路を探索し,中間段階の注釈を付けることを目的とした異種推論経路探索,(2)候補推論ステップを生成するための政策モデルと品質評価のための価値モデルを訓練する品質認識モデルの推論,(3)直接生成とステップバイステップ推論を動的に切り替える適応的CoT推論,の3つの重要な要素を紹介した。
関連論文リスト
- Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Refining Critical Thinking in LLM Code Generation: A Faulty Premise-based Evaluation Framework [11.47215537484756]
本稿では,FPBenchを提案する。
ほとんどのモデルは、欠陥のある前提下での推論能力と最適コード生成性能が劣っている。
論文 参考訳(メタデータ) (2025-08-05T16:39:39Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models [35.82665698868508]
大規模言語モデル(LLM)は、推論時間の間に高い計算時間とエラーの伝播に苦労する。
提案するMeta-Reasonerは,LLMが推論時間における推論方法の戦略を調整することで,推論計算を最適化するための新しいフレームワークである。
提案手法は,従来のSOTA法よりも9~12%向上し,推論時間を28~35%短縮する。
論文 参考訳(メタデータ) (2025-02-27T09:40:13Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。