論文の概要: SEER: Enhancing Chain-of-Thought Code Generation through Self-Exploring Deep Reasoning
- arxiv url: http://arxiv.org/abs/2510.17130v1
- Date: Mon, 20 Oct 2025 03:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.296414
- Title: SEER: Enhancing Chain-of-Thought Code Generation through Self-Exploring Deep Reasoning
- Title(参考訳): SEER: 自己探索型ディープ推論によるChain-of-Thoughtコード生成の強化
- Authors: Shuzheng Gao, Chaozheng Wang, Cuiyun Gao, Michael R. Lyu,
- Abstract要約: CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は、コードを書く前に高いレベルの推論計画を開発することができる。
コード生成の正確かつ適応的な推論を可能にするSelf-Exploring Deep ReasoningフレームワークであるSEERを提案する。
- 参考スコア(独自算出の注目度): 41.76790935791852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation, the task of creating executable programs from natural language requirements, has recently seen tremendous advances through Chain-of-Thought (CoT) reasoning, which enables Large Language Models (LLMs) to develop high-level reasoning plans before writing code. Recent research has proposed various methods to enhance models' CoT reasoning for code generation such as prompt engineering and supervised fine-tuning. However, existing approaches still face three critical limitations: (1) limited exploration of diverse reasoning paths, which constrains generalization across various programming scenarios, (2) lack of quality assessment for intermediate reasoning steps, which hampers the reliability of the generated plans and code, and (3) the potential negative impact of "overthinking", potentially leading to unnecessarily complex and incorrect solutions. To address these limitations, we frame CoT code generation as a decision making problem and present SEER, a SElf-Exploring deep Reasoning framework that enables accurate and adaptive reasoning for code generation. SEER introduces three key components: (1) Diverse reasoning path exploration, which aims at exploring diverse reasoning paths and annotating intermediate steps without relying on manual experts or closed-source proprietary models; (2) Reasoning quality-aware model training, which trains a policy model for generating candidate reasoning steps and a value model for assessing their quality; and (3) Adaptive CoT reasoning, which dynamically switches between direct generation and step-by-step reasoning for different problems.
- Abstract(参考訳): 自然言語の要求から実行可能なプログラムを作成するためのタスクであるコード生成は、最近、Chain-of-Thought(CoT)推論を通じて大きな進歩を遂げた。
近年の研究では、プロンプトエンジニアリングや教師付き微調整など、コード生成のためのCoT推論を強化する様々な手法が提案されている。
しかし、既存のアプローチは、(1)様々なプログラミングシナリオにまたがる一般化を制約する多様な推論経路の限られた探索、(2)生成された計画やコードの信頼性を損なう中間推論ステップの品質評価の欠如、(3)「再考」の潜在的なネガティブな影響により、必要以上に複雑で誤った解決策がもたらされる、という3つの重大な制限に直面している。
このような制限に対処するため,我々はCoTコード生成を意思決定問題とみなし,コード生成の正確かつ適応的な推論を可能にするSelf-Exploring Deep ReasoningフレームワークであるSEERを提示する。
SEERは,(1)手動の専門家やクローズドソースのプロプライエタリなモデルに頼らず,多様な推論経路を探索し,中間段階の注釈を付けることを目的とした異種推論経路探索,(2)候補推論ステップを生成するための政策モデルと品質評価のための価値モデルを訓練する品質認識モデルの推論,(3)直接生成とステップバイステップ推論を動的に切り替える適応的CoT推論,の3つの重要な要素を紹介した。
関連論文リスト
- Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation [86.08600027874662]
コード生成のための軽量なロジットレベル制御機構を通じて、チェーン・オブ・シント推論を強化する新しいフレームワークであるLogitsCoderを提案する。
我々はLogitsCoderがより効率的で高品質な推論チェーンを生成することを示し、ベースライン方式に比べてコード生成性能が優れていることを示した。
論文 参考訳(メタデータ) (2026-02-15T08:52:19Z) - CODE: A Contradiction-Based Deliberation Extension Framework for Overthinking Attacks on Retrieval-Augmented Generation [43.85448261466922]
我々はContradiction-Based Deliberation Extension (CODE) というエンドツーエンド攻撃フレームワークを提案する。
CODEは、知識ベースに注入される中毒サンプルを構築するためのマルチエージェントアーキテクチャを開発している。
実験の結果、CODEはタスク性能を劣化させることなく5.32x-24.72倍のトークン消費を発生させることが示された。
論文 参考訳(メタデータ) (2026-01-19T14:52:31Z) - Neural Chain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models [61.55758048622473]
最適思考戦略の動的探索として推論を再構成するフレームワークであるNeural Chain-of-Thought Search (NCoTS)を導入する。
解空間を定量的に特徴づけることで、標準出力よりも正確かつ簡潔なスパース優良推論経路の存在を明らかにする。
論文 参考訳(メタデータ) (2026-01-16T14:38:18Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Refining Critical Thinking in LLM Code Generation: A Faulty Premise-based Evaluation Framework [11.47215537484756]
本稿では,FPBenchを提案する。
ほとんどのモデルは、欠陥のある前提下での推論能力と最適コード生成性能が劣っている。
論文 参考訳(メタデータ) (2025-08-05T16:39:39Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models [35.82665698868508]
大規模言語モデル(LLM)は、推論時間の間に高い計算時間とエラーの伝播に苦労する。
提案するMeta-Reasonerは,LLMが推論時間における推論方法の戦略を調整することで,推論計算を最適化するための新しいフレームワークである。
提案手法は,従来のSOTA法よりも9~12%向上し,推論時間を28~35%短縮する。
論文 参考訳(メタデータ) (2025-02-27T09:40:13Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。