論文の概要: FLARE: Fine-Grained Diagnostic Feedback for LLM Code Refinement
- arxiv url: http://arxiv.org/abs/2606.03852v1
- Date: Tue, 02 Jun 2026 16:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.159768
- Title: FLARE: Fine-Grained Diagnostic Feedback for LLM Code Refinement
- Title(参考訳): FLARE: LLMコードリファインメントのための微粒化診断フィードバック
- Authors: Yinsheng Yao, Hongxiang Zhang, Weixi Tong, Tianyi Zhang,
- Abstract要約: 既存の方法は、テストの失敗や自己批判のようなフィードバック信号を使って、生成されたコードを反復的に洗練する。
本稿では,バグローカライゼーションとコードリファインメントのためのラインレベルの不確実性信号を予測する軽量診断モデルを備えた反復的フレームワークであるFrareを提案する。
- 参考スコア(独自算出の注目度): 4.766545304784272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often generate code with bugs. Existing methods rely on feedback signals such as test failures and self-critiques to iteratively refine the generated code. Such signals are either too coarse-grained or too high-level, which is not sufficient to inform the model where to fix the bug. In this work, we present Flare, an iterative framework with a lightweight diagnostic model that predicts line-level suspiciousness signals for bug localization and code refinement. Given the inherent uncertainty of diagnostic predictions, Flare searches over the top-k suspicious regions and selects the best candidate according to execution outcomes. Experiments on LiveCodeBench and BigCodeBench with five base LLMs show that, even without candidate search (k=1), Flare outperforms the strongest baseline with an absolute improvement from 1.72% to 7.42%. Furthermore, searching over 10 candidates yields an average improvement of 8.50% compared with no candidate search. When evaluated in isolation, our lightweight diagnostic model achieves the best performance compared with recent fault localization methods, demonstrating that it can provide reliable fine-grained guidance for code refinement.
- Abstract(参考訳): 大規模な言語モデルは、しばしばバグのあるコードを生成する。
既存の方法は、テストの失敗や自己批判のようなフィードバック信号を使って、生成されたコードを反復的に洗練する。
このような信号は粗い粒度か高すぎるため、モデルにバグの修正方法を知らせるには不十分である。
本研究では,バグローカライゼーションとコードリファインメントのためのラインレベルの不確実性信号を予測する軽量診断モデルを備えた反復的フレームワークであるFrareを提案する。
診断予測の本質的な不確実性を考えると、Frareはトップkの疑わしい領域を探索し、実行結果に応じて最適な候補を選択する。
LiveCodeBenchとBigCodeBenchの5つのベースLLMによる実験では、候補探索(k=1)がなくても、Frareは1.72%から7.42%に改善され、最強のベースラインを上回っている。
さらに、10人以上の候補者を検索すると、候補者を検索せずに平均8.50%の改善が得られる。
独立して評価すると,我々の軽量診断モデルは,近年の故障局所化手法と比較して最高の性能を達成し,コード修正のための信頼性の高い詳細なガイダンスを提供できることを示した。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [8.166584296080805]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。
49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Method-Level Bug Severity Prediction using Source Code Metrics and LLMs [0.628122931748758]
本稿では,ソースコードのメトリクス,大言語モデル(LLM)を用いたソースコード表現,およびバグ重大度ラベルの予測におけるそれらの組み合わせについて検討する。
以上の結果から,決定木モデルとランダムフォレストモデルは,いくつかの評価指標に関して,他のモデルよりも優れていたことが示唆された。
CodeBERTの微調整により、いくつかの評価指標の29%-140%の範囲でバグの重大度予測が大幅に改善される。
論文 参考訳(メタデータ) (2023-09-06T14:38:07Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。