論文の概要: CCrepairBench: A High-Fidelity Benchmark and Reinforcement Learning Framework for C++ Compilation Repair
- arxiv url: http://arxiv.org/abs/2509.15690v1
- Date: Fri, 19 Sep 2025 07:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.043047
- Title: CCrepairBench: A High-Fidelity Benchmark and Reinforcement Learning Framework for C++ Compilation Repair
- Title(参考訳): CCrepairBench: C++コンパイル修復のための高忠実なベンチマークと強化学習フレームワーク
- Authors: Weixuan Sun, Jucai Zhai, Dengfeng Liu, Xin Zhang, Xiaojun Wu, Qiaobo Hao, AIMgroup, Yang Fang, Jiuyang Tang,
- Abstract要約: CCrepairは、洗練された生成と検証パイプラインによって構築された、新しい大規模C++コンパイルエラーデータセットである。
第2に,ハイブリッド報酬信号で導かれる強化学習パラダイムを提案し,その焦点を単なるコンパイル性から修正の意味的品質にシフトさせる。
- 参考スコア(独自算出の注目度): 18.624106902572155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automated repair of C++ compilation errors presents a significant challenge, the resolution of which is critical for developer productivity. Progress in this domain is constrained by two primary factors: the scarcity of large-scale, high-fidelity datasets and the limitations of conventional supervised methods, which often fail to generate semantically correct patches.This paper addresses these gaps by introducing a comprehensive framework with three core contributions. First, we present CCrepair, a novel, large-scale C++ compilation error dataset constructed through a sophisticated generate-and-verify pipeline. Second, we propose a Reinforcement Learning (RL) paradigm guided by a hybrid reward signal, shifting the focus from mere compilability to the semantic quality of the fix. Finally, we establish the robust, two-stage evaluation system providing this signal, centered on an LLM-as-a-Judge whose reliability has been rigorously validated against the collective judgments of a panel of human experts. This integrated approach aligns the training objective with generating high-quality, non-trivial patches that are both syntactically and semantically correct. The effectiveness of our approach was demonstrated experimentally. Our RL-trained Qwen2.5-1.5B-Instruct model achieved performance comparable to a Qwen2.5-14B-Instruct model, validating the efficiency of our training paradigm. Our work provides the research community with a valuable new dataset and a more effective paradigm for training and evaluating robust compilation repair models, paving the way for more practical and reliable automated programming assistants.
- Abstract(参考訳): C++コンパイルエラーの自動修正は、開発者の生産性にとって重要な課題である。
この領域の進歩は、大規模で高忠実なデータセットの不足と、しばしば意味的に正しいパッチを生成するのに失敗する従来の教師付き手法の限界の2つの主要な要因によって制約されている。
まず、CCrepairについて述べる。CCrepairは、洗練された生成と検証パイプラインによって構築された、新しい大規模C++コンパイルエラーデータセットである。
第2に,ハイブリッド報酬信号で導かれる強化学習(RL)パラダイムを提案する。
最後に、この信号を提供する頑健な2段階評価システムを構築し、人間の専門家の集団判断に対して信頼性が厳格に検証されているLLM-as-a-Judgeを中心にした。
この統合されたアプローチは、トレーニング目標を、構文的にも意味的にも正しい、高品質で非自明なパッチを生成することに整合させる。
提案手法の有効性を実験的に実証した。
我々のRL学習モデルQwen2.5-1.5B-インストラクトは、トレーニングパラダイムの有効性を検証し、Qwen2.5-14B-インストラクトモデルに匹敵する性能を達成した。
私たちの研究は、研究コミュニティに価値ある新しいデータセットと、堅牢なコンパイル修復モデルのトレーニングと評価のためのより効果的なパラダイムを提供し、より実用的で信頼性の高い自動プログラムアシスタントの道を開いた。
関連論文リスト
- Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation [10.764970149373845]
我々は,厳格な制約をソフトガイダンスのパラダイムに置き換える,新しいRLフレームワークであるSoftPipeを紹介した。
我々は、SoftPipeがパイプラインの品質を最大13.9%改善し、2.8$times$既存の方法よりも高速な収束を実現することを実証した。
論文 参考訳(メタデータ) (2025-07-18T07:43:22Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [78.18946529195254]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - SDPERL: A Framework for Software Defect Prediction Using Ensemble Feature Extraction and Reinforcement Learning [0.0]
本稿では,ソフトウェア欠陥予測のための革新的なフレームワークを提案する。
アンサンブル特徴抽出と強化学習(RL)に基づく特徴選択を組み合わせる。
この作業は、ファイルレベルの粒度でこの問題に対処する最近の取り組みの1つだ、と我々は主張する。
論文 参考訳(メタデータ) (2024-12-10T21:16:05Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。