論文の概要: Towards Effectively Leveraging Execution Traces for Program Repair with Code LLMs
- arxiv url: http://arxiv.org/abs/2505.04441v1
- Date: Wed, 07 May 2025 14:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.103827
- Title: Towards Effectively Leveraging Execution Traces for Program Repair with Code LLMs
- Title(参考訳): コードLLMによるプログラム修復における実行トレースの有効活用に向けて
- Authors: Mirazul Haque, Petr Babkin, Farima Farmahinifarahani, Manuela Veloso,
- Abstract要約: 大きな言語モデル(LLM)は、様々なプログラミングタスクにおいて有望なパフォーマンスを示す。
我々は,標準的なAPRプロンプトをプログラム実行トレースで強化することで,この潜在的な盲点を修復することを目指している。
- 参考スコア(独自算出の注目度): 13.708569727719434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show promising performance on various programming tasks, including Automatic Program Repair (APR). However, most approaches to LLM-based APR are limited to the static analysis of the programs, while disregarding their runtime behavior. Inspired by knowledge-augmented NLP, in this work, we aim to remedy this potential blind spot by augmenting standard APR prompts with program execution traces. We evaluate our approach using the GPT family of models on three popular APR datasets. Our findings suggest that simply incorporating execution traces into the prompt provides a limited performance improvement over trace-free baselines, in only 2 out of 6 tested dataset / model configurations. We further find that the effectiveness of execution traces for APR diminishes as their complexity increases. We explore several strategies for leveraging traces in prompts and demonstrate that LLM-optimized prompts help outperform trace-free prompts more consistently. Additionally, we show trace-based prompting to be superior to finetuning a smaller LLM on a small-scale dataset; and conduct probing studies reinforcing the notion that execution traces can complement the reasoning abilities of the LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なプログラミングタスクにおいて有望なパフォーマンスを示す。
しかし、LLMベースのAPRに対するほとんどのアプローチは、実行時の動作を無視しながら、プログラムの静的解析に限られている。
本研究は,知識を付加したNLPにインスパイアされた,標準的なAPRプロンプトをプログラム実行トレースで強化することにより,潜在的な盲点を改善することを目的としている。
提案手法は,3つのAPRデータセット上でのGPTファミリモデルを用いて評価する。
我々の研究結果は、単に実行トレースをプロンプトに組み込むことで、テストされたデータセット/モデル構成のうち2つに過ぎず、トレースフリーのベースラインよりも限られたパフォーマンス改善が可能になることを示唆している。
さらに, APR の実行トレースの有効性は, 複雑性が増大するにつれて低下することがわかった。
我々は、トレースをプロンプトで活用するためのいくつかの戦略を探求し、LLM最適化プロンプトがトレースフリープロンプトをより一貫した性能を発揮することを実証する。
さらに,小規模データセット上でLLMを微調整するよりも,トレースベースのプロンプトの方が優れていることを示すとともに,LLMの推論能力を補うことができることを示す。
関連論文リスト
- LLM Program Optimization via Retrieval Augmented Search [71.40092732256252]
提案手法は,提案手法によって最適化されたビーム探索を行う検索アルゴリズムであるRetrieval Augmented Search (RAS) である。
我々は、RASが従来の最先端のブラックボックス適応戦略よりも1.8$times$パフォーマンスが高いことを示す。
また、トレーニング例を「アトミックな編集」に分解することで、解釈可能性を向上させるAEGISと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T06:34:47Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search [7.769411917500852]
LLM誘導検索フレームワーク(LLM-GS)について紹介する。
我々の重要な洞察は、LLMのプログラミングの専門知識と常識推論を活用して、仮定不要でランダムな探索手法の効率を高めることである。
本研究では,プログラム探索空間を効率的に探索し,一貫したプログラムを改善するための探索アルゴリズムであるSchduled Hill Climbingを開発した。
論文 参考訳(メタデータ) (2024-05-26T06:33:48Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - GPT is becoming a Turing machine: Here are some ways to program it [16.169056235216576]
GPT-3モデルはループを含むプログラムを実行するために起動可能であることを示す。
1つのタスクの例をカバーすることさえできないプロンプトが、アルゴリズム的な振る舞いをトリガーできることを示します。
論文 参考訳(メタデータ) (2023-03-25T00:43:41Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。