論文の概要: Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models
- arxiv url: http://arxiv.org/abs/2509.11686v1
- Date: Mon, 15 Sep 2025 08:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.199525
- Title: Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models
- Title(参考訳): コードセマンティクスは役立つか? 大規模言語モデルのための実行トレースベース情報に関する総合的研究
- Authors: Jian Wang, Xiaofei Xie, Qiang Hu, Shangqing Liu, Yi Li,
- Abstract要約: コードLLMの教師付き微調整(SFT)と位相後推論におけるトレースベースセマンティック情報の有用性について検討する。
実験結果は従来の研究と驚くほど異なっており、意味情報がコードLLMのSFTおよびテスト時間スケーリングに限られた有用性を持っていることを実証している。
- 参考スコア(独自算出の注目度): 24.14163275602762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code Large Language Models (Code LLMs) have opened a new era in programming with their impressive capabilities. However, recent research has revealed critical limitations in their ability to reason about runtime behavior and understand the actual functionality of programs, which poses significant challenges for their post-training and practical deployment. Specifically, Code LLMs encounter two principal issues: (1) a lack of proficiency in reasoning about program execution behavior, as they struggle to interpret what programs actually do during runtime, and (2) the inconsistent and fragmented representation of semantic information, such as execution traces, across existing methods, which hinders their ability to generalize and reason effectively. These challenges underscore the necessity for more systematic approaches to enhance the reasoning capabilities of Code LLMs. To address these issues, we introduce a generic framework to support integrating semantic information~(e.g., execution trace) to code task-relevant prompts, and conduct a comprehensive study to explore the role of semantic information in enhancing the reasoning ability of Code LLMs accordingly. Specifically, we focus on investigating the usefulness of trace-based semantic information in boosting supervised fine-tuning~(SFT) and post-phase inference of Code LLMs. The experimental results surprisingly disagree with previous works and demonstrate that semantic information has limited usefulness for SFT and test time scaling of Code LLM.
- Abstract(参考訳): Code Large Language Models (Code LLMs)は、その印象的な機能を備えたプログラミングの新しい時代を開いた。
しかし、最近の研究は、実行時の振る舞いを推論し、プログラムの実際の機能を理解する能力に重大な制限があることを明らかにしており、これは、後のトレーニングと実践的なデプロイに重大な課題をもたらしている。
具体的には,プログラム実行動作の推論能力の欠如,実行中に実際に実行されているプログラムの解釈に苦慮していること,実行トレースなどのセマンティック情報の一貫性のない断片化表現が,既存のメソッドにまたがって,プログラムの一般化や推論を阻害していること,という2つの問題に直面する。
これらの課題は、コードLLMの推論能力を強化するためのより体系的なアプローチの必要性を浮き彫りにしている。
これらの課題に対処するために、コードタスク関連プロンプトへのセマンティック情報~(例えば実行トレース)の統合を支援する汎用フレームワークを導入し、それに応じてコードLLMの推論能力を高める上での意味情報の役割を総合的に調査する。
具体的には、コードLLMの教師付き微調整(SFT)と位相後推論におけるトレースベースの意味情報の有用性について検討する。
実験結果は従来の研究と驚くほど異なっており、意味情報がコードLLMのSFTおよびテスト時間スケーリングに限られた有用性を持っていることを実証している。
関連論文リスト
- Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications [0.6813925418351435]
大規模言語モデル(LLM)はソフトウェア開発において不可欠なツールとなり、要求工学、コード生成、レビュータスクに広く利用されている。
本稿では,LLMが自然言語の要求に適合するかどうかを評価する上で,体系的に失敗していることを明らかにする。
以上の結果から,LCMは要件を満たすことのできないコード実装や潜在的な欠陥を含むコード実装を誤って分類することが多いことが判明した。
論文 参考訳(メタデータ) (2025-08-17T13:07:26Z) - SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [5.247363735860479]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。
LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。
SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。
オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文 参考訳(メタデータ) (2025-02-16T15:38:19Z) - SpecEval: Evaluating Code Comprehension in Large Language Models via Program Specifications [12.683365968483807]
プログラム仕様を用いて,大規模言語モデルにおけるコード理解を評価するためのSpecEvalを提案する。
4つの仕様関連タスクは、基本的なレベルから高度なレベルまでLLMの能力を評価するために慎重に設計されている。
特に、4つの仕様関連タスクは、基本的なレベルから高度なレベルまでLLMの能力を評価するために慎重に設計されている。
論文 参考訳(メタデータ) (2024-09-19T16:08:39Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。