論文の概要: BloomAPR: A Bloom's Taxonomy-based Framework for Assessing the Capabilities of LLM-Powered APR Solutions
- arxiv url: http://arxiv.org/abs/2509.25465v1
- Date: Mon, 29 Sep 2025 20:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.307968
- Title: BloomAPR: A Bloom's Taxonomy-based Framework for Assessing the Capabilities of LLM-Powered APR Solutions
- Title(参考訳): BloomAPR: LLM駆動型APRソリューションの能力を評価するためのブルーム分類ベースのフレームワーク
- Authors: Yinghang Ma, Jiho Shin, Leuson Da Silva, Zhen Ming, Jiang, Song Wang, Foutse Khomh, Shin Hwei Tan,
- Abstract要約: ブルームの分類を基盤とした新しい動的評価フレームワークであるBloomAPRを紹介する。
我々のフレームワークは、段階的に複雑な推論レベルを越えて、LLMによるAPRソリューションの認知能力を評価するための構造化されたアプローチを提供する。
以上の結果から,これらのソリューションは基本的推論能力を示す一方で,合成されたバグによって性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 19.682278660857584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have accelerated the development of AI-driven automated program repair (APR) solutions. However, these solutions are typically evaluated using static benchmarks such as Defects4J and SWE-bench, which suffer from two key limitations: (1) the risk of data contamination, potentially inflating evaluation results due to overlap with LLM training data, and (2) limited ability to assess the APR capabilities in dynamic and diverse contexts. In this paper, we introduced BloomAPR, a novel dynamic evaluation framework grounded in Bloom's Taxonomy. Our framework offers a structured approach to assess the cognitive capabilities of LLM-powered APR solutions across progressively complex reasoning levels. Using Defects4J as a case study, we evaluated two state-of-the-art LLM-powered APR solutions, ChatRepair and CigaR, under three different LLMs: GPT-3.5-Turbo, Llama-3.1, and StarCoder-2. Our findings show that while these solutions exhibit basic reasoning skills and effectively memorize bug-fixing patterns (fixing up to 81.57% of bugs at the Remember layer), their performance increases with synthetically generated bugs (up to 60.66% increase at the Understand layer). However, they perform worse on minor syntactic changes (fixing up to 43.32% at the Apply layer), and they struggle to repair similar bugs when injected into real-world projects (solving only 13.46% to 41.34% bugs at the Analyze layer). These results underscore the urgent need for evolving benchmarks and provide a foundation for more trustworthy evaluation of LLM-powered software engineering solutions.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、AI駆動型自動プログラム修復(APR)ソリューションの開発を加速させている。
しかし、これらのソリューションは典型的にはDefects4JやSWE-benchのような静的なベンチマークを用いて評価されるが、これは(1)データ汚染のリスク、LSMトレーニングデータとの重複による評価結果を膨らませる可能性、(2)動的かつ多様な文脈におけるAPR能力を評価する能力の制限、の2つの主要な制限がある。
本稿では,Bloom's Taxonomyに基づく新しい動的評価フレームワークであるBloomAPRを紹介した。
我々のフレームワークは、段階的に複雑な推論レベルを越えて、LLMによるAPRソリューションの認知能力を評価するための構造化されたアプローチを提供する。
Defects4Jをケーススタディとして,GPT-3.5-Turbo,Llama-3.1,StarCoder-2の3種類のLCMソリューションであるChatRepairとCigaRの評価を行った。
その結果、これらのソリューションは基本的な推論スキルを示し、バグ修正パターンを効果的に記憶する(リマインダー層で最大81.57%のバグを修正)一方で、合成されたバグ(アンダースタンド層で最大60.66%増加)によってパフォーマンスが向上することがわかった。
しかし、彼らは小さな構文変更(Apply層で43.32%の修正)で悪化し、現実世界のプロジェクトに注入された際に同様のバグを修復するのに苦労している(Analyze層では13.46%から41.34%のバグしか解決していない)。
これらの結果は、ベンチマークの急激な必要性を強調し、LLMによるソフトウェアエンジニアリングソリューションをより信頼性の高い評価のための基盤を提供する。
関連論文リスト
- APRMCTS: Improving LLM-based Automated Program Repair with Iterative Tree Search [10.033333633312171]
APRMCTS はモンテカルロ木探索 (MCTS) をパッチ探索に取り入れ、探索されたパッチのグローバル評価を行い、改良と生成のために最も有望なパッチを選択する。
Defects4Jの835のバグに関する実験では、GPT-3.5と統合すると、APRMCTSは合計201のバグを修正でき、すべての最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-07-02T15:44:12Z) - From Empirical Evaluation to Context-Aware Enhancement: Repairing Regression Errors with LLMs [1.078085076551721]
Javaレグレッションバグに関するAPRテクニックを実証研究する。
RegMiner4APRは、広く使用されている32の現実世界のJava GitHubリポジトリから収集されたJava回帰バグのベンチマークである。
以上の結果から,従来のAPRツールはバグ修正に失敗し,LSMベースのAPRアプローチは有望な可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2025-06-16T07:49:18Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.327835928133535]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。
実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。
LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文 参考訳(メタデータ) (2024-10-10T01:14:58Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Hybrid Automated Program Repair by Combining Large Language Models and Program Analysis [12.7034916462208]
自動プログラム修復(APR)は、人間の開発者のバグ修正プロセスを合理化する可能性から、大きな注目を集めている。
本稿ではGIANTREPAIRと呼ばれる革新的なAPR手法を紹介する。
この知見に基づいて、GIANTREPAIRはまず、LLM生成したパッチからパッチスケルトンを構築して、パッチ空間を閉じ込め、その後、特定のプログラムに適した高品質なパッチを生成する。
論文 参考訳(メタデータ) (2024-06-03T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。