論文の概要: CCISolver: End-to-End Detection and Repair of Method-Level Code-Comment Inconsistency
- arxiv url: http://arxiv.org/abs/2506.20558v1
- Date: Wed, 25 Jun 2025 15:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.827253
- Title: CCISolver: End-to-End Detection and Repair of Method-Level Code-Comment Inconsistency
- Title(参考訳): CCISolver: エンドツーエンド検出とメソッドレベルコード補完不整合の修復
- Authors: Renyi Zhong, Yintong Huo, Wenwei Gu, Jinxi Kuang, Zhihan Jiang, Guangba Yu, Yichen Li, David Lo, Michael R. Lyu,
- Abstract要約: CCI(Code-comment Inconsistency)は、ソフトウェア開発、テスト、メンテナンスに悪影響を及ぼす可能性がある。
我々は,CCIの識別と修正によるコード品質の向上を目的とした,革新的なエンドツーエンドフレームワークであるCCIBenchを提案する。
- 参考スコア(独自算出の注目度): 33.30328162446649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comments within code serve as a crucial foundation for software documentation, facilitating developers to communicate and understand the code effectively. However, code-comment inconsistency (CCI) can negatively affect software development, testing, and maintenance. Recent efforts to mitigate this issue have emerged, but existing studies often suffer from inaccurate datasets and inadequate solutions, weakening their practical effectiveness. In this study, we first conduct a quantitative analysis of existing datasets, revealing a substantial portion of sampled data are mislabeled. To address these data limitations, we introduce CCIBench, a refined dataset comprising high-quality data, to support the training and evaluation of method-level CCI methods. Furthermore, we present an innovative end-to-end LLM-based framework, CCISolver, designed to improve code quality by identifying and rectifying CCIs. Comprehensive evaluations demonstrate CCISolver's superior performance. For detection, it establishes a new state-of-the-art with an F1-score of 89.54%. In fixing task, it achieves a remarkable 18.84% relative improvement in GLEU score over the strongest baseline. This superiority is confirmed by human evaluation, where CCISolver's fixing success rate of 0.6533 significantly surpasses existing methods. Critically, in a practical end-to-end setting, CCISolver's innovative architecture is approximately 36% faster for inference than the baseline model, underscoring its scalability and real-world applicability.
- Abstract(参考訳): コード内のコメントは、ソフトウェアドキュメンテーションにとって重要な基盤となり、開発者が効果的にコミュニケーションし、コードを理解するのに役立つ。
しかし、CCI(Code-comment Inconsistency)はソフトウェア開発、テスト、メンテナンスに悪影響を及ぼす可能性がある。
この問題を軽減するための最近の取り組みは現れているが、既存の研究はしばしば不正確なデータセットと不適切な解決策に悩まされ、その実践的効果が弱まる。
本研究では,まず既存のデータセットを定量的に分析し,サンプルデータのかなりの部分が誤ラベルされていることを明らかにした。
これらのデータ制限に対処するために、高品質なデータからなる洗練されたデータセットであるCCIBenchを導入し、メソッドレベルのCCI手法のトレーニングと評価を支援する。
さらに,CCIの識別と修正によるコード品質の向上を目的とした,革新的なLCMベースのフレームワークであるCCISolverを提案する。
総合評価はCCISolverの優れた性能を示している。
検出のために、F1スコア89.54%の新たな最先端技術を確立する。
フィニッシュタスクでは、最強のベースラインよりも、GLEUスコアが18.84%向上した。
この優位性は、CCISolverの固定成功率0.6533が既存の手法をはるかに上回る評価によって確認される。
批判的に言えば、CCISolverの革新的なアーキテクチャはベースラインモデルよりも推論が約36%速く、スケーラビリティと実世界の適用性を強調している。
関連論文リスト
- Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Enhancing Language Model Factuality via Activation-Based Confidence Calibration and Guided Decoding [7.855485779946983]
キャリブレーション言語モデル(LM)は、その生成信頼度を実際の回答の正しさの確率と整合させる。
本稿では,アクティベーションに基づくキャリブレーション手法であるActCabを提案する。
また,信頼度の高い復号法であるCoDecを提案する。
論文 参考訳(メタデータ) (2024-06-19T05:33:34Z) - OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework [21.87740178652843]
因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。
本稿では,因果構造と因果効果の違いを評価するための指標を用いたフレキシブルな評価フレームワークを提案する。
実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。
論文 参考訳(メタデータ) (2024-06-07T03:09:22Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。