Fugu-MT 論文翻訳(概要): Benchmarking Large Language Models for ABAP Code Generation: An Empirical Study on Iterative Improvement by Compiler Feedback

論文の概要: Benchmarking Large Language Models for ABAP Code Generation: An Empirical Study on Iterative Improvement by Compiler Feedback

arxiv url: http://arxiv.org/abs/2601.15188v1
Date: Wed, 21 Jan 2026 17:06:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 21:27:50.470345
Title: Benchmarking Large Language Models for ABAP Code Generation: An Empirical Study on Iterative Improvement by Compiler Feedback
Title（参考訳）: ABAPコード生成のための大規模言語モデルのベンチマーク:コンパイラフィードバックによる反復的改善に関する実証的研究
Authors: Stephan Wallraven, Tim Köhne, Hartmut Westenberger, Andreas Moser,
Abstract要約: 本研究では,ABAPコード生成におけるLarge Language Models(LLM)の性能について検討する。本研究の目的は,様々なLLMが統語的正確かつ機能的なABAPコードを生成する程度を経験的に分析することである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work investigates the performance of Large Language Models (LLMs) in generating ABAP code. Despite successful applications of generative AI in many programming languages, there are hardly any systematic analyses of ABAP code generation to date. The aim of the study is to empirically analyze to what extent various LLMs can generate syntactically correct and functional ABAP code, how effectively they use compiler feedback for iterative improvement, and which task types pose special challenges. For this purpose, a benchmark with 180 tasks is conducted, consisting of adapted HumanEval tasks and practical SAP scenarios. The results show significant performance differences between the models: more powerful LLMs achieve success rates of around 75% after several iterations and benefit greatly from compiler feedback, while smaller models perform significantly weaker. Overall, the study highlights the high potential of powerful LLMs for ABAP development processes, especially in iterative error correction.
Abstract（参考訳）: 本研究では,ABAPコード生成におけるLarge Language Models(LLM)の性能について検討する。多くのプログラミング言語で生成AIが成功したにもかかわらず、これまでABAPコード生成の体系的な分析はほとんどない。本研究の目的は,様々なLLMが統語的正確かつ機能的なABAPコードを生成する程度,コンパイラフィードバックを反復的改善にいかに効果的に活用するか,どのタスクタイプが特別な課題をもたらすのかを実証的に分析することである。この目的のために、適応されたHumanEvalタスクと実用的なSAPシナリオからなる180タスクのベンチマークを行う。より強力なLLMは、数回のイテレーションで約75%の成功率を獲得し、コンパイラのフィードバックから大きな利益を得る一方、より小さなモデルはより弱い性能を得る。全体として、この研究はABAP開発プロセス、特に反復的誤り訂正における強力なLLMの可能性を強調している。

関連論文リスト

Holistic Evaluation of State-of-the-Art LLMs for Code Generation [5.504955093712013]
DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
論文参考訳（メタデータ） (2025-12-19T23:29:05Z)
Empirical Evaluation of Large Language Models in Automated Program Repair [11.840927951970146]
大規模言語モデル(LLM)は、自動プログラム修復(APR)のための新しい機会を提供する我々は,7Bから33Bパラメータ,多様なアーキテクチャ,目的の4つのオープンソースLLM,CodeLlama,LLaMA,StarCoder,DeepSeek-Coderを研究した。 2つのバグシナリオ(エンタプライズグレードとアルゴリズム)、3つの言語(Java、C/C++、Python)と4つのプロンプト戦略で評価し、6つのベンチマークで600万以上の生成されたパッチを分析しました。
論文参考訳（メタデータ） (2025-06-16T07:52:15Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks [0.0]
本研究では,プロプライエタリな大規模言語モデル (LLM) に匹敵する精度を実現するため,小型言語モデル (SLM) アンサンブルの可能性を検討する。本稿では,複数のSLMから判断を合成するためにベイズ推定を適用した新しい手法として,EBI(Ensemble Bayesian Inference)を提案する。
論文参考訳（メタデータ） (2025-04-24T15:55:10Z)
The First Prompt Counts the Most! An Evaluation of Large Language Models on Iterative Example-Based Code Generation [33.77058239791512]
本稿では,Large Language Models (LLMs) を用いたサンプルベースコード生成の総合的研究について述べる。我々は、反復評価フレームワークを採用し、サンプルベースのコード生成の目的を2つの連続的なサブオブジェクトとして定式化する。我々は、172の多様な目標関数のベンチマークを用いて、最先端のLLMを6つ評価した。
論文参考訳（メタデータ） (2024-11-11T08:05:37Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。 LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。各種コードライブラリの推論性能の粗大な解析を行う。
論文参考訳（メタデータ） (2024-04-17T15:57:50Z)
Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。