論文の概要: Reinforcement Learning-Guided Chain-of-Draft for Token-Efficient Code Generation
- arxiv url: http://arxiv.org/abs/2509.25243v1
- Date: Fri, 26 Sep 2025 08:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.196935
- Title: Reinforcement Learning-Guided Chain-of-Draft for Token-Efficient Code Generation
- Title(参考訳): トークン効率の良いコード生成のための強化学習型図形連鎖
- Authors: Xunzhu Tang, Iyiola Emmanuel Olatunji, Tiezhu Sun, Jacques Klein, Tegawende F. Bissyande,
- Abstract要約: LLMは、コード生成において表面的なフラレンシを示すが、構造化推論タスクに苦労する。
我々は、CoD生成ソリューションから最も有望な候補を選択することを学ぶ強化学習フレームワークであるmulticodを提案する。
- 参考スコア(独自算出の注目度): 7.69951622965475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs demonstrate surface-level fluency in code generation but struggle with structured reasoning tasks requiring correctness and semantic alignment. While Chain-of-Thought (CoT) prompting enhances reasoning through intermediate steps, it suffers from verbosity and inefficiency. Chain-of-Draft (CoD) prompting offers more concise reasoning, but the stochastic nature of LLMs produces varying solution quality, making optimal selection challenging. We propose \multicod, a reinforcement learning framework that learns to select the most promising candidate from CoD-generated solutions. Our approach uses strategy-guided prompting to encourage diverse reasoning styles and models solution selection as a contextual bandit problem. The framework optimizes interpretable features including code complexity, reasoning structure, and strategic metadata through a reward function balancing correctness, efficiency, and clarity. Experiments on MBPP, BigCodeBench, SWE-bench Verified, and Defects4J show \multicod~outperforms and in some cases, on par with standard prompting, CoT, and CoD baselines while achieving cost and token efficiency from the user's perspective through a multi-candidate design that charges only for the selected output, reducing user billing by over 50\% and improving LLM response quality, making \multicod~more sustainable and scalable for real-world deployment. Our code is available: https://anonymous.4open.science/r/MultiCoD.
- Abstract(参考訳): LLMは、コード生成において表面的なフラレンシを示すが、正確性とセマンティックアライメントを必要とする構造的推論タスクに苦労する。
CoT(Chain-of-Thought)は中間段階による推論を促進するが、冗長性や非効率性に悩まされる。
CoD(Chain-of-Draft)により、より簡潔な推論が可能となるが、LLMの確率的性質は様々な解の質を生み出し、最適な選択を困難にしている。
我々は,CoD 生成ソリューションから最も有望な候補を選択することを学ぶ強化学習フレームワークである \multicod を提案する。
提案手法では, 多様な推論スタイルを奨励し, 文脈的帯域幅問題として解選択をモデル化する。
このフレームワークは、コードの複雑さ、推論構造、戦略的メタデータを含む解釈可能な機能を、正しさ、効率、明快さのバランスをとる報酬関数によって最適化する。
MBPP、BigCodeBench、SWE-bench Verified、Defects4Jの実験では、標準のプロンプト、CoT、CoDベースラインと同等に、ユーザが選択した出力に対してのみ課金するマルチカンジケート設計によってコストとトークン効率を達成し、ユーザの請求額を50%以上削減し、LCMの応答品質を向上し、より持続可能で、よりスケーラブルな実際のデプロイメントを実現する。
私たちのコードは、https://anonymous.4open.science/r/MultiCoD.comで利用可能です。
関連論文リスト
- Optimizing Prompt Sequences using Monte Carlo Tree Search for LLM-Based Optimization [20.44067161623662]
大規模言語モデル(LLM)は、コード生成と構造化推論において顕著な能力を示した。
本稿では,モンテカルロ木探索によって導かれる逐次決定過程として,選択を高速化するニューラルシンボリックフレームワークを提案する。
本手法は,コード生成品質の向上を目的として,複数ステップのプロンプトシーケンスを探索・精査する。
論文 参考訳(メタデータ) (2025-08-08T04:01:24Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - Uncertainty-Guided Chain-of-Thought for Code Generation with LLMs [45.33160999781074]
大規模言語モデル(LLM)の問題解決能力向上に有効な手法として,チェーン・オブ・ソート(CoT)推論が実証されている。
我々は、不確実性を認識したCoT推論機構を組み込むことで、コード生成を向上させるためのUnCert-CoTを導入する。
論文 参考訳(メタデータ) (2025-03-19T15:40:45Z) - Robust Multi-Objective Controlled Decoding of Large Language Models [14.58153072993207]
本稿では,ロバスト多目的復号法(RMOD)を提案する。
RMODは、報酬重み付けとサンプリングポリシーの間の最大2プレーヤゲームとして頑健な復号問題を定式化する。
我々は,ゲームが最悪の重みを求めるために凸最適化問題に還元されるのに対して,最良の応答ポリシは解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2025-03-11T18:15:26Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。