論文の概要: From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler
- arxiv url: http://arxiv.org/abs/2601.12146v2
- Date: Fri, 23 Jan 2026 08:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.290796
- Title: From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler
- Title(参考訳): LLMからプログラミングエージェントへ:コンパイラによるLLMの提供が及ぼす影響
- Authors: Viktor Kjellberg, Miroslaw Staron, Farnaz Fotrousi,
- Abstract要約: 大規模言語モデルは、自然言語とプログラム生成とソフトウェア開発において顕著な能力を示してきた。
本稿では,このようなエージェントがソフトウェア開発ツール,例えばgccコンパイラへのアクセスから恩恵を受ける程度について検討する。
我々は,コンパイラとの連携により,言語モデルの役割を受動的生成器から,コンパイラからのフィードバックに基づいて実行可能なプログラムを反復的に開発可能なアクティブエージェントへ移行させる方法について評価する。
- 参考スコア(独自算出の注目度): 2.7400724993677703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have demonstrated a remarkable capability in natural language and program generation and software development. However, the source code generated by the LLMs does not always meet quality requirements and may fail to compile. Therefore, many studies evolve into agents that can reason about the problem before generating the source code for the solution. The goal of this paper is to study the degree to which such agents benefit from access to software development tools, in our case, a gcc compiler. We conduct a computational experiment on the RosettaCode dataset, on 699 programming tasks in C. We evaluate how the integration with a compiler shifts the role of the language model from a passive generator to an active agent capable of iteratively developing runnable programs based on feedback from the compiler. We evaluated 16 language models with sizes ranging from small (135 million) to medium (3 billion) and large (70 billion). Our results show that access to a compiler improved the compilation success by 5.3 to 79.4 percentage units in compilation without affecting the semantics of the generated program. Syntax errors dropped by 75%, and errors related to undefined references dropped by 87% for the tasks where the agents outperformed the baselines. We also observed that in some cases, smaller models with a compiler outperform larger models with a compiler. We conclude that it is essential for LLMs to have access to software engineering tools to enhance their performance and reduce the need for large models in software engineering, such as reducing our energy footprint.
- Abstract(参考訳): 大規模言語モデルは、自然言語とプログラム生成とソフトウェア開発において顕著な能力を示してきた。
しかし、LLMによって生成されたソースコードは必ずしも品質要件を満たしておらず、コンパイルに失敗する可能性がある。
したがって、多くの研究は、ソリューションのソースコードを生成する前に問題を推論できるエージェントへと進化する。
本研究の目的は,このようなエージェントがソフトウェア開発ツール,特にgccコンパイラにアクセスできることのメリットを調査することである。
我々は,C言語における699のプログラムタスク上で,RosettaCodeデータセット上で計算実験を行い,コンパイラとのインテグレーションによって,言語モデルの役割が受動的生成器から,コンパイラからのフィードバックに基づいて実行可能なプログラムを反復的に開発可能なアクティブエージェントに移行したかを評価する。
我々は,小 (1億3500万) から中 (3億) ,大 (7000億) までの16の言語モデルを評価した。
その結果,コンパイラへのアクセスにより,生成プログラムのセマンティクスに影響を与えることなく,コンパイルにおける5.3~79.4パーセントのコンパイル成功率が向上した。
構文エラーは75%減少し、未定義参照に関するエラーは、エージェントがベースラインを上回ったタスクに対して87%低下した。
また、場合によっては、コンパイラを持つ小さなモデルの方が、コンパイラでより大きなモデルより優れています。
我々は、LCMがソフトウェア工学ツールにアクセスし、その性能を高め、我々のエネルギーフットプリントを減らすなど、ソフトウェア工学における大規模なモデルの必要性を減らすことが不可欠であると結論付けている。
関連論文リスト
- AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents [3.0684671771686394]
本稿では,Large Language Models (LLMs) がOSパッケージのみでクリーンな環境で実行可能であるかどうかを実証研究する。
我々は、Python、JavaScript、Javaで100の標準化プロンプトから生成される300のプロジェクトに対して、最先端のLLMコーディングエージェントを3つ評価した。
その結果、68.3%のプロジェクトはアウト・オブ・ザ・ボックスで実行されており、言語によってかなり異なることが判明した。
論文 参考訳(メタデータ) (2025-12-26T21:17:22Z) - Exploring the Feasibility of End-to-End Large Language Model as a Compiler [20.15972226865971]
大規模言語モデル(LLM)技術は、様々な領域で大きな利点を示している。
本稿では,コンパイラ(LaaC)としてのLCMの実現可能性とその今後の方向性について検討する。
論文 参考訳(メタデータ) (2025-11-06T07:21:42Z) - Context-Guided Decompilation: A Step Towards Re-executability [50.71992919223209]
バイナリ逆コンパイルは、ソフトウェアセキュリティ分析、リバースエンジニアリング、マルウェア理解において重要な役割を果たす。
大規模言語モデル (LLMs) の最近の進歩により、ニューラルデコンパイルが可能になったが、生成されたコードは一般的に意味論的にのみ使用可能である。
In-context Learning(ICL)を活用して,再実行可能なソースコードを生成するためのILC4Decompを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:21:39Z) - CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System [52.048087777953064]
リポジトリレベルのコンパイル専用のエージェントフレームワークであるCompileAgentを提案する。
CompileAgentは5つのツールとフローベースのエージェント戦略を統合し、コンパイル命令検索とエラー解決のためのソフトウェアアーチファクトとのインタラクションを可能にする。
提案手法は,10%から71%の範囲で,コンパイル成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-07T08:59:14Z) - LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。
しかし、これらのツールは人間の開発者によって事前に実装されなければならない。
論文をコードで自律的にLLM互換のツールに変換するエージェントフレームワークであるToolMakerを提案する。
論文 参考訳(メタデータ) (2025-02-17T11:44:11Z) - Meta Large Language Model Compiler: Foundation Models of Compiler Optimization [21.161784011956126]
大規模言語モデル(LLM)は、様々なソフトウェア工学やコーディングタスクにまたがる顕著な機能を示している。
しかしながら、コード領域におけるそれらのアプリケーションとコンパイラの最適化については、まだ未検討である。
Meta Large Language Model Compiler (LLM Compiler)は、コード最適化タスクのための、堅牢で、オープンに利用可能な、事前訓練されたモデルのスイートである。
論文 参考訳(メタデータ) (2024-06-27T21:47:48Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - Output Format Biases in the Evaluation of Large Language Models for Code Translation [6.75681623173699]
出力フォーマットのバリエーションを理解し、対処することが重要です。
非コード要素は評価指標に干渉し、モデルの性能と比較のバイアスのある評価をもたらす。
混合形式出力からソースコードを効果的に抽出する,プロンプトエンジニアリングと正規表現の戦略的組み合わせを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Dcc --help: Generating Context-Aware Compiler Error Explanations with
Large Language Models [53.04357141450459]
dcc --helpはCS1とCS2のコースにデプロイされ、2565人の学生が10週間で64,000回以上このツールを使っている。
LLMが生成した説明は、コンパイル時間の90%と実行時の75%で概念的に正確であるが、コードに解決策を提供しない命令を無視することが多かった。
論文 参考訳(メタデータ) (2023-08-23T02:36:19Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Beyond the C: Retargetable Decompilation using Neural Machine
Translation [5.734661402742406]
我々は,新しい言語に容易に再ターゲティング可能なプロトタイプ・デコンパイラを開発した。
トークン化やトレーニングデータ選択などのパラメータが逆コンパイルの品質に与える影響について検討する。
トレーニングデータ、トレーニングされた逆コンパイルモデル、そして将来の言語に依存しない逆コンパイルの研究を促進するためのコードをリリースします。
論文 参考訳(メタデータ) (2022-12-17T20:45:59Z) - Compilable Neural Code Generation with Compiler Feedback [43.97362484564799]
本稿では、言語モデルの微調整、コンパイル可能性強化、コンパイル可能性判定を含む、コンパイル可能なコード生成のための3段階パイプラインを提案する。
2つのコード生成タスクの実験は,提案手法の有効性を示し,平均44.18から89.18に,テキスト・コード生成では70.3から96.2に向上した。
論文 参考訳(メタデータ) (2022-03-10T03:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。