論文の概要: On the Impact of Code Comments for Automated Bug-Fixing: An Empirical Study
- arxiv url: http://arxiv.org/abs/2601.23059v1
- Date: Fri, 30 Jan 2026 15:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.517547
- Title: On the Impact of Code Comments for Automated Bug-Fixing: An Empirical Study
- Title(参考訳): 自動バグフィクスにおけるコードコメントの影響に関する実証的研究
- Authors: Antonio Vitale, Emanuela Guglielmi, Simone Scalabrino, Rocco Oliveto,
- Abstract要約: 価値ある設計と実装の洞察を提供することによって、ある種のバグを修正する上で、コメントは重要な役割を果たすかもしれません。
本研究では,大規模言語モデルのバグフィックス能力に,トレーニング時と推論時の両方でコメントの有無がどのような影響を及ぼすかを検討する。
以上の結果から,いずれのフェーズにおいても,ABFの精度は最大3倍向上するが,コメントによるトレーニングでは,インスタンスが欠如している場合には性能が低下しないことがわかった。
- 参考スコア(独自算出の注目度): 3.8571904945643336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly relevant in Software Engineering research and practice, with Automated Bug Fixing (ABF) being one of their key applications. ABF involves transforming a buggy method into its fixed equivalent. A common preprocessing step in ABF involves removing comments from code prior to training. However, we hypothesize that comments may play a critical role in fixing certain types of bugs by providing valuable design and implementation insights. In this study, we investigate how the presence or absence of comments, both during training and at inference time, impacts the bug-fixing capabilities of LLMs. We conduct an empirical evaluation comparing two model families, each evaluated under all combinations of training and inference conditions (with and without comments), and thereby revisiting the common practice of removing comments during training. To address the limited availability of comments in state-of-the-art datasets, we use an LLM to automatically generate comments for methods lacking them. Our findings show that comments improve ABF accuracy by up to threefold when present in both phases, while training with comments does not degrade performance when instances lack them. Additionally, an interpretability analysis identifies that comments detailing method implementation are particularly effective in aiding LLMs to fix bugs accurately.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学の研究と実践において、ますます関連性が高まっている。
ABFはバグギーメソッドを固定等価に変換する。
ABFの一般的な事前処理ステップは、トレーニング前にコードからコメントを削除することである。
しかし、我々は、価値ある設計と実装の洞察を提供することで、ある種のバグを修正する上で、コメントが重要な役割を果たすかもしれないと仮定します。
本研究では,LLMのバグ修正能力に,トレーニング時と推論時の両方でコメントの有無がどのような影響を及ぼすかを検討する。
本研究では,2つのモデルファミリーを比較検討し,各モデルファミリーをトレーニング条件と推論条件(コメントなし,無コメント)の組合せで評価し,トレーニング中にコメントを除去する一般的な実践を再考する。
最先端データセットにおけるコメントの可用性の制限に対処するために、LLMを使用して、それらが欠けているメソッドに対するコメントを自動的に生成する。
以上の結果から,いずれのフェーズにおいても,ABFの精度は最大3倍向上するが,コメントによるトレーニングでは,インスタンスが欠如している場合には性能が低下しないことがわかった。
さらに、解釈可能性分析により、メソッドの実装を詳細に記述したコメントは、LSMがバグを正確に修正するのを助けるのに特に有効であることが示された。
関連論文リスト
- Context-Adaptive Requirements Defect Prediction through Human-LLM Collaboration [1.4499356176178066]
本稿では,欠陥予測を静的な分類タスクではなく適応プロセスとして扱うHuman-LLM Collaboration(HLC)アプローチを提案する。
メルセデス・ベンツの要求条件である1,266のQuREベンチマークの弱い単語の匂いを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2026-01-05T10:00:14Z) - Exploring the Potential of Large Language Models in Fine-Grained Review Comment Classification [4.61232919707345]
大きな言語モデル(LLM)は17のカテゴリのコードレビューコメントを分類することができる。
LLMは、最も有用な5つのカテゴリの分類において、より良い精度を達成する。
これらの結果は、LLMがコードレビュー分析にスケーラブルなソリューションを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-08-13T14:07:05Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Identifying Inaccurate Descriptions in LLM-generated Code Comments via Test Execution [11.418182511485032]
3つの大言語モデル(LLM)が生成するコメントを評価する。
文書をLCMを用いて検証し、文書に基づいてテストを生成し、それらのテストを実行し、通過するかどうかを観察する文書テストの概念を提案する。
論文 参考訳(メタデータ) (2024-06-21T02:40:34Z) - The Right Prompts for the Job: Repair Code-Review Defects with Large
Language Model [15.885824575879763]
自動プログラム修復(APR)技術は、コードレビュー(CR)プロセス中にプログラム欠陥を発見して修復する手作業を減らす可能性がある。
しかし、既存のAPRアプローチにまつわる限られた精度とかなりの時間的コストは、産業的な実践において採用を妨げている。
近年のLLM(Large Language Models)の進歩により、自然言語やプログラミング言語を理解する能力が向上し、レビューコメントに基づいたパッチの生成が可能になった。
論文 参考訳(メタデータ) (2023-12-29T06:12:15Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。