論文の概要: Towards a Human-in-the-Loop Framework for Reliable Patch Evaluation Using an LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2511.10865v1
- Date: Fri, 14 Nov 2025 00:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.373983
- Title: Towards a Human-in-the-Loop Framework for Reliable Patch Evaluation Using an LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeを用いた信頼性パッチ評価のためのHuman-in-the-Loopフレームワークの実現に向けて
- Authors: Sherry Shi, Renyao Wei, Michele Tufano, José Cambronero, Runxiang Cheng, Franjo Ivančić, Pat Rondon,
- Abstract要約: 提案手法は,LLMに基づくパッチの妥当性判定にヒト・イン・ザ・ループ方式を導入する。
共有ルーブリックを用いた場合,人間の判断がより整合性が高いという観察から着想を得て,まず LLM を用いてバグごとのルーブリックを生成する。
本稿では,Googleのサニタイザツールが発見した問題に対して,バイナリ検証ラベルをパッチに割り当てる手法を提案する。
- 参考スコア(独自算出の注目度): 5.2037448717382935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation is crucial for advancing Automated Program Repair (APR), but prevailing benchmarks rely on execution-based evaluation methods (unit test pass@k), which fail to capture true patch validity. Determining validity can require costly manual annotation. To reduce this cost, we introduce a human-in-the-loop approach to LLM-based patch validity judgment. Inspired by the observation that human judgment is better aligned when using a shared rubric, we first employ an LLM to generate a per-bug rubric, followed by a one-time human review and optional refinement to this rubric, and then employ an LLM to judge patches using the refined rubric. We apply this approach to assign binary validity labels to patches for issues found by Google sanitizer tools. Our results show that this approach yields substantial agreement with human consensus (Cohen's kappa 0.75), high recall (0.94) and high precision (0.80), when considering patches that have unanimous agreement from 3 human raters on the validity labels. On the full dataset including patches where human raters disagree, we find this approach can still be further improved (Cohen's kappa 0.57, recall 0.93, precision 0.65) and identify possible future directions.
- Abstract(参考訳): 信頼性の高い評価は自動プログラム修正(APR)を進める上で不可欠だが、一般的なベンチマークは実行ベースの評価手法(unit test pass@k)に依存している。
妥当性を決定するには、高価な手作業によるアノテーションが必要になる。
このコストを削減するために,LLMに基づくパッチの妥当性判定に対して,Human-in-the-loopアプローチを導入する。
共有ルーブリックを用いた場合,人間の判断はより整合性が高いという観察から着想を得た上で,まずLLMを用いてバグごとのルーブリックを生成し,続いて1回の人間レビューとオプションでこのルーブを改良し,改良されたルーブを使ってパッチを判定する。
本稿では,Googleのサニタイザツールが発見した問題に対して,バイナリ検証ラベルをパッチに割り当てる手法を提案する。
以上の結果から,本手法は,ヒトのアレーナー3名によるアレーナー3名との合意が一致したパッチ(Cohen's kappa 0.75),ハイリコール(0.94),ハイリコール(0.80),およびハイリコール(0.80)に相当することがわかった。
人間のラッカーが同意しないパッチを含む完全なデータセットでは、このアプローチをさらに改善できる(コーエンのカッパ0.57、リコール0.93、精度0.65)。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - Parameter-Efficient Fine-Tuning with Attributed Patch Semantic Graph for Automated Patch Correctness Assessment [8.028183762381474]
自動プログラム修復(APR)は、人間の介入なしにプログラムエラーを自動的に修復することを目的としている。
多くの研究がAPCA(Automatic patch correctness Assessment)に費やされている。
論文 参考訳(メタデータ) (2025-05-05T13:15:53Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation [4.065344017083881]
CodeBERTScoreのような埋め込みベースのメトリクスを使って、機能的正確性や編集作業などの有用な構造を計測する能力を分析します。
その結果,機能的正当性(0.16)との相関は弱いものの,編集作業と強く相関している(0.72)ことがわかった。
論文 参考訳(メタデータ) (2024-04-26T15:54:39Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。