論文の概要: From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler
- arxiv url: http://arxiv.org/abs/2601.12146v2
- Date: Fri, 23 Jan 2026 08:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.290796
- Title: From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler
- Title(参考訳): LLMからプログラミングエージェントへ:コンパイラによるLLMの提供が及ぼす影響
- Authors: Viktor Kjellberg, Miroslaw Staron, Farnaz Fotrousi,
- Abstract要約: 大規模言語モデルは、自然言語とプログラム生成とソフトウェア開発において顕著な能力を示してきた。
本稿では,このようなエージェントがソフトウェア開発ツール,例えばgccコンパイラへのアクセスから恩恵を受ける程度について検討する。
我々は,コンパイラとの連携により,言語モデルの役割を受動的生成器から,コンパイラからのフィードバックに基づいて実行可能なプログラムを反復的に開発可能なアクティブエージェントへ移行させる方法について評価する。
- 参考スコア(独自算出の注目度): 2.7400724993677703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have demonstrated a remarkable capability in natural language and program generation and software development. However, the source code generated by the LLMs does not always meet quality requirements and may fail to compile. Therefore, many studies evolve into agents that can reason about the problem before generating the source code for the solution. The goal of this paper is to study the degree to which such agents benefit from access to software development tools, in our case, a gcc compiler. We conduct a computational experiment on the RosettaCode dataset, on 699 programming tasks in C. We evaluate how the integration with a compiler shifts the role of the language model from a passive generator to an active agent capable of iteratively developing runnable programs based on feedback from the compiler. We evaluated 16 language models with sizes ranging from small (135 million) to medium (3 billion) and large (70 billion). Our results show that access to a compiler improved the compilation success by 5.3 to 79.4 percentage units in compilation without affecting the semantics of the generated program. Syntax errors dropped by 75%, and errors related to undefined references dropped by 87% for the tasks where the agents outperformed the baselines. We also observed that in some cases, smaller models with a compiler outperform larger models with a compiler. We conclude that it is essential for LLMs to have access to software engineering tools to enhance their performance and reduce the need for large models in software engineering, such as reducing our energy footprint.
- Abstract(参考訳): 大規模言語モデルは、自然言語とプログラム生成とソフトウェア開発において顕著な能力を示してきた。
しかし、LLMによって生成されたソースコードは必ずしも品質要件を満たしておらず、コンパイルに失敗する可能性がある。
したがって、多くの研究は、ソリューションのソースコードを生成する前に問題を推論できるエージェントへと進化する。
本研究の目的は,このようなエージェントがソフトウェア開発ツール,特にgccコンパイラにアクセスできることのメリットを調査することである。
我々は,C言語における699のプログラムタスク上で,RosettaCodeデータセット上で計算実験を行い,コンパイラとのインテグレーションによって,言語モデルの役割が受動的生成器から,コンパイラからのフィードバックに基づいて実行可能なプログラムを反復的に開発可能なアクティブエージェントに移行したかを評価する。
我々は,小 (1億3500万) から中 (3億) ,大 (7000億) までの16の言語モデルを評価した。
その結果,コンパイラへのアクセスにより,生成プログラムのセマンティクスに影響を与えることなく,コンパイルにおける5.3~79.4パーセントのコンパイル成功率が向上した。
構文エラーは75%減少し、未定義参照に関するエラーは、エージェントがベースラインを上回ったタスクに対して87%低下した。
また、場合によっては、コンパイラを持つ小さなモデルの方が、コンパイラでより大きなモデルより優れています。
我々は、LCMがソフトウェア工学ツールにアクセスし、その性能を高め、我々のエネルギーフットプリントを減らすなど、ソフトウェア工学における大規模なモデルの必要性を減らすことが不可欠であると結論付けている。
関連論文リスト
- Exploring the Feasibility of End-to-End Large Language Model as a Compiler [20.15972226865971]
大規模言語モデル(LLM)技術は、様々な領域で大きな利点を示している。
本稿では,コンパイラ(LaaC)としてのLCMの実現可能性とその今後の方向性について検討する。
論文 参考訳(メタデータ) (2025-11-06T07:21:42Z) - Meta Large Language Model Compiler: Foundation Models of Compiler Optimization [21.161784011956126]
大規模言語モデル(LLM)は、様々なソフトウェア工学やコーディングタスクにまたがる顕著な機能を示している。
しかしながら、コード領域におけるそれらのアプリケーションとコンパイラの最適化については、まだ未検討である。
Meta Large Language Model Compiler (LLM Compiler)は、コード最適化タスクのための、堅牢で、オープンに利用可能な、事前訓練されたモデルのスイートである。
論文 参考訳(メタデータ) (2024-06-27T21:47:48Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - Output Format Biases in the Evaluation of Large Language Models for Code Translation [6.75681623173699]
出力フォーマットのバリエーションを理解し、対処することが重要です。
非コード要素は評価指標に干渉し、モデルの性能と比較のバイアスのある評価をもたらす。
混合形式出力からソースコードを効果的に抽出する,プロンプトエンジニアリングと正規表現の戦略的組み合わせを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Dcc --help: Generating Context-Aware Compiler Error Explanations with
Large Language Models [53.04357141450459]
dcc --helpはCS1とCS2のコースにデプロイされ、2565人の学生が10週間で64,000回以上このツールを使っている。
LLMが生成した説明は、コンパイル時間の90%と実行時の75%で概念的に正確であるが、コードに解決策を提供しない命令を無視することが多かった。
論文 参考訳(メタデータ) (2023-08-23T02:36:19Z) - Compilable Neural Code Generation with Compiler Feedback [43.97362484564799]
本稿では、言語モデルの微調整、コンパイル可能性強化、コンパイル可能性判定を含む、コンパイル可能なコード生成のための3段階パイプラインを提案する。
2つのコード生成タスクの実験は,提案手法の有効性を示し,平均44.18から89.18に,テキスト・コード生成では70.3から96.2に向上した。
論文 参考訳(メタデータ) (2022-03-10T03:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。