論文の概要: LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation
- arxiv url: http://arxiv.org/abs/2602.14054v1
- Date: Sun, 15 Feb 2026 08:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.629931
- Title: LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation
- Title(参考訳): LogitsCoder: コード生成のためのLogits Preference Decodingによる効率的なChain-of-Thoughtパス検索を目指す
- Authors: Jizheng Chen, Weiming Zhang, Xinyi Dai, Weiwen Liu, Kounianhua Du, Yasheng Wang, Ruiming Tang, Yong Yu, Weinan Zhang,
- Abstract要約: コード生成のための軽量なロジットレベル制御機構を通じて、チェーン・オブ・シント推論を強化する新しいフレームワークであるLogitsCoderを提案する。
我々はLogitsCoderがより効率的で高品質な推論チェーンを生成することを示し、ベースライン方式に比べてコード生成性能が優れていることを示した。
- 参考スコア(独自算出の注目度): 86.08600027874662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation remains a challenging task that requires precise and structured reasoning. Existing Test Time Scaling (TTS) methods, including structured tree search, have made progress in exploring reasoning paths but still face two major challenges: (1) underthinking, where reasoning chains tend to be shallow and fail to capture the full complexity of problems; and (2) overthinking, where overly verbose reasoning leads to inefficiency and increased computational costs. To address these issues, we propose LogitsCoder, a novel framework that enhances chain-of-thought reasoning through lightweight, logit-level control mechanisms for code generation. LogitsCoder iteratively generates and refines reasoning steps by first steering token selection toward statistically preferred patterns via Logits Preference Decoding, then selecting and aggregating diverse reasoning paths using Logits Rank Based Path Selection and Thoughts Aggregation. This results in coherent and effective reasoning chains that balance depth and efficiency. Extensive experiments demonstrate that LogitsCoder produces more efficient and higher-quality reasoning chains, leading to superior code generation performance compared to baseline methods.
- Abstract(参考訳): コード生成は、正確で構造化された推論を必要とする難しいタスクのままです。
既存のテスト時間スケーリング(TTS)手法は、構造化木探索を含む、推論経路の探索に進歩しているが、(1)推論チェーンが浅く、問題の完全な複雑さを捉えることができない場合、(2)過度に冗長な推論が非効率性や計算コストの増加につながる場合、という2つの大きな課題に直面している。
これらの問題に対処するため、コード生成のための軽量なロジットレベルの制御機構を通じて、チェーン・オブ・シント推論を強化する新しいフレームワークであるLogitsCoderを提案する。
LogitsCoderは、最初にLogits Preference Decodingを通じて統計的に好まれるパターンに対してトークン選択を操り、次にLogits Rank Based Path SelectionとThoughts Aggregationを使用してさまざまな推論パスを選択して集約することで、推論ステップを反復的に生成し、洗練する。
これにより、深さと効率のバランスをとるコヒーレントで効果的な推論連鎖が得られる。
大規模な実験により、LogitsCoderはより効率的で高品質な推論チェーンを生成し、ベースラインメソッドよりも優れたコード生成性能をもたらすことが示されている。
関連論文リスト
- Neural Chain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models [61.55758048622473]
最適思考戦略の動的探索として推論を再構成するフレームワークであるNeural Chain-of-Thought Search (NCoTS)を導入する。
解空間を定量的に特徴づけることで、標準出力よりも正確かつ簡潔なスパース優良推論経路の存在を明らかにする。
論文 参考訳(メタデータ) (2026-01-16T14:38:18Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。