論文の概要: Understanding Chain-of-Thought Effectiveness in Code Generation: An Empirical and Information-Theoretic Analysis
- arxiv url: http://arxiv.org/abs/2512.09679v1
- Date: Wed, 10 Dec 2025 14:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.553534
- Title: Understanding Chain-of-Thought Effectiveness in Code Generation: An Empirical and Information-Theoretic Analysis
- Title(参考訳): コード生成におけるチェーン・オブ・ソートの有効性の理解--実証的・情報論的分析
- Authors: Naizhu Jin, Zhong Li, Guang Yang, Tian Zhang, Qingkai Zeng,
- Abstract要約: CoT(Chain-of-Thought)は、大規模言語モデル(LLM)がコード生成において強力なパフォーマンスを達成するのに役立つ。
ニューラルコード生成におけるCoTの有効性に関する系統的経験的および情報理論的研究を提案する。
- 参考スコア(独自算出の注目度): 13.64149870296543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance on code generation, but the mechanisms by which Chain-of-Thought (CoT) prompting helps remain unclear. We present a systematic empirical and information-theoretic study of CoT effectiveness in neural code generation, evaluating five paradigms (Zero-Shot, Zero-Shot CoT, Self-Planning, Structured CoT, Reasoning-CoT) across six Python benchmarks, a multilingual benchmark with 12 programming languages, and six models from 7B to 480B parameters, using conditional mutual information $I(Y;C|X)$ as a conceptual lens. Our results show that externally guided CoT consistently outperforms direct generation, with structured methods improving Pass@1 by 5--12\% on average while using substantially fewer tokens than reflective reasoning, and that CoT benefits depend on language type systems and model capacity. We further find that reasoning \emph{quality} is critical: high-quality structured CoT from strong generators yields significantly higher accuracy than lightweight alternatives with the same template, whereas naive Zero-Shot CoT can even degrade performance. These findings provide practical guidance for choosing CoT strategies based on model capacity, language characteristics, and task complexity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成において高いパフォーマンスを達成するが、Chain-of-Thought(CoT)が促すメカニズムは依然として不明である。
ニューラルネットワーク生成におけるCoTの有効性を,Pythonのベンチマーク6つ,12のプログラミング言語を用いたマルチリンガルベンチマーク,および7Bから480Bパラメータのモデル6つを対象に,条件付き相互情報$I(Y;C|X)$の5つのパラダイム(Zero-Shot, Zero-Shot CoT, Self-Planning, Structured CoT, Reasoning-CoT)を概念レンズとして評価した。
以上の結果から,CoTの利点は言語型システムやモデルキャパシティに依存するが,外部ガイドによるCoTは直接生成よりも優れており,Pass@1を平均5~12 %改善する構造的手法は反射的推論よりもかなり少ないトークンを使用し,CoTの利点は言語型システムやモデルキャパシティに依存していることがわかった。
強いジェネレータからの高品質な構造化CoTは、同じテンプレートで軽量な代替品よりもはるかに高い精度が得られるのに対して、Zero-Shot CoTは性能を低下させることもできる。
これらの知見は,モデルキャパシティ,言語特性,タスク複雑性に基づくCoT戦略を選択するための実践的ガイダンスを提供する。
関連論文リスト
- Teaching Language Models to Reason with Tools [73.21700643314917]
emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。
CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
論文 参考訳(メタデータ) (2025-10-23T08:41:44Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - CoT Vectors: Transferring and Probing the Reasoning Mechanisms of LLMs [33.63911145333626]
Chain-of-Thoughtプロンプトは、大規模言語モデルの推論能力を高めるための強力なアプローチとして現れています。
コンテキスト内学習や微調整といった既存の実装は、コストがかかり、非効率である。
タスク汎用多段階推論知識を符号化するコンパクト表現であるCoTベクトルを導入する。
論文 参考訳(メタデータ) (2025-10-01T06:58:23Z) - Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - Enhancing Large Language Model Efficiencyvia Symbolic Compression: A Formal Approach Towards Interpretability [3.9122242678047456]
大規模言語モデル(LLM)は、コード生成と論理的推論タスクにおいて重要なトークン効率のボトルネックに直面します。
本稿では,記号圧縮,論理の統合,情報理論の最適符号化,文脈認識推論技術に基づく形式的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-30T06:40:52Z) - Tensor Product Attention Is All You Need [61.3442269053374]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - Markovian Transformers for Informative Language Modeling [1.172865818448696]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
推論オートエンコーダとして理解可能なマルコフ言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。