論文の概要: HEJ-Robust: A Robustness Benchmark for LLM-Based Automated Program Repair
- arxiv url: http://arxiv.org/abs/2605.02215v3
- Date: Fri, 08 May 2026 04:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.724115
- Title: HEJ-Robust: A Robustness Benchmark for LLM-Based Automated Program Repair
- Title(参考訳): HEJ-Robust: LLMベースの自動プログラム修復のためのロバストネスベンチマーク
- Authors: Fazle Rabbi, Jinqiu Yang,
- Abstract要約: LLM(Large Language Models)は、標準ベンチマーク全体にわたって、プログラムの自動修正において強力なパフォーマンスを示している。
HEJ-RobustはHumanEval-Java-Bugから構築されたロバスト性ベンチマークで、8つのセマンティクス保存コード変換を用いて構築する。
いくつかの変換条件下でモデル性能が50%以上低下することを示し、現在のLLMベースの補修モデルではマイナーな構文変化に対してロバスト性を欠いていることを示す。
- 参考スコア(独自算出の注目度): 2.631239247885318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Language Models (LLMs) have shown strong performance on automated program repair across standard benchmarks. However, these benchmarks evaluate models on a single canonical form of buggy code and do not reflect the syntactic variations commonly observed in real-world software, leaving robustness largely unexamined. In this work, we construct HEJ-Robust, a robustness benchmark built from HumanEval-Java-Bug using eight semantics-preserving code transformations, resulting in 1,450 transformed instances. We evaluate five fine-tuned LLMs on this benchmark and show that model performance drops by over 50% under several transformations, indicating that current LLM-based repair models lack robustness to minor syntactic variations.
- Abstract(参考訳): 最近のLarge Language Models (LLMs) は、標準ベンチマーク全体にわたって、プログラムの自動修正に強いパフォーマンスを示している。
しかしながら、これらのベンチマークは、単一の標準的なバグギーコードのモデルを評価し、現実世界のソフトウェアで一般的に見られる構文的バリエーションを反映せず、堅牢性はほとんど検討されていない。
本研究では,HumanEval-Java-Bugから構築した堅牢性ベンチマークであるHEJ-Robustを8つのセマンティクス保存コード変換を用いて構築し,1450のインスタンスを変換した。
このベンチマークで5つの微調整LDMを評価し, モデル性能が50%以上低下することを示す。
関連論文リスト
- EVALOOOP: A Self-Consistency-Centered Framework for Assessing Large Language Model Robustness in Programming [8.52533297070733]
EVALOOOPは自己整合性の観点から堅牢性を評価するアセスメントフレームワークである。
MBPP Plusベンチマークで96の人気のある大言語モデル(LLM)を評価した。
EVALOOOPは10ループでパス@1の精度を2.65%-47.62%低下させる。
論文 参考訳(メタデータ) (2025-05-18T01:02:33Z) - reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs [63.42534498099614]
現状の報奨モデルでは, 入力変換が小さい場合でも, 大幅な性能劣化に悩まされていることを示す。
同様のスコアをパラフレーズに割り当てるように明示的にトレーニングすることを提案するが、この手法は他の異なる種類の変換に対する堅牢性も向上する。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation [19.69195067838796]
クラスレベルのコード翻訳ベンチマークであるClassEval-Tを構築し、クラスレベルのコード翻訳における最近のLLMの性能を広範囲に評価する最初の試みを行う。
完全なコードサンプルと関連するテストスイートを使って、JavaとC++への手動移行を実現するのに、私たちは360人時間を費やしました。
実験結果は,最も広く研究されているメソッドレベルのコード翻訳ベンチマークと比較して,顕著な性能低下を示した。
論文 参考訳(メタデータ) (2024-11-09T11:13:14Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。