論文の概要: What Types of Code Review Comments Do Developers Most Frequently Resolve?
- arxiv url: http://arxiv.org/abs/2510.05450v1
- Date: Mon, 06 Oct 2025 23:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.025911
- Title: What Types of Code Review Comments Do Developers Most Frequently Resolve?
- Title(参考訳): 開発者が最も頻繁に解決するコードレビューコメントの種類は?
- Authors: Saul Goldman, Hong Yi Lin, Jirat Pasuksmit, Patanamon Thongtanunam, Kla Tantithamthavorn, Zhe Wang, Ray Zhang, Ali Behnaz, Fan Jiang, Michael Siers, Ryan Jiang, Mike Buller, Minwoo Jeong, Ming Wu,
- Abstract要約: コードレビューコメントを生成するために,LLM(Large Language Model)を使用したコードレビュー自動化ツールが導入されている。
本稿では、人間やLLMが書いたレビューコメントのタイプと、開発者が最も頻繁に解決しているコメントのタイプについて検討する。
- 参考スコア(独自算出の注目度): 10.277847378685161
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language model (LLM)-powered code review automation tools have been introduced to generate code review comments. However, not all generated comments will drive code changes. Understanding what types of generated review comments are likely to trigger code changes is crucial for identifying those that are actionable. In this paper, we set out to investigate (1) the types of review comments written by humans and LLMs, and (2) the types of generated comments that are most frequently resolved by developers. To do so, we developed an LLM-as-a-Judge to automatically classify review comments based on our own taxonomy of five categories. Our empirical study confirms that (1) the LLM reviewer and human reviewers exhibit distinct strengths and weaknesses depending on the project context, and (2) readability, bugs, and maintainability-related comments had higher resolution rates than those focused on code design. These results suggest that a substantial proportion of LLM-generated comments are actionable and can be resolved by developers. Our work highlights the complementarity between LLM and human reviewers and offers suggestions to improve the practical effectiveness of LLM-powered code review tools.
- Abstract(参考訳): コードレビューコメントを生成するために,LLM(Large Language Model)を使用したコードレビュー自動化ツールが導入されている。
しかし、生成されたすべてのコメントがコードの変更を引き起こすわけではない。
コードの変更をトリガーする可能性のある、生成されたレビューコメントの種類を理解することは、実行可能なものを特定する上で非常に重要です。
本稿では,(1)人間やLSMによるレビューコメントのタイプ,(2)開発者が最も頻繁に解決するコメントのタイプについて検討する。
そこで我々は,5つのカテゴリーの分類に基づいてレビューコメントを自動的に分類するLLM-as-a-Judgeを開発した。
その結果, 1) LLMレビュアーと人間レビュアーは, プロジェクトの状況によって異なる長所と短所を示し, (2) 可読性, バグ, 保守性に関するコメントは, コード設計よりも高い解像度率を示した。
これらの結果は、LLM生成したコメントのかなりの割合が実行可能であり、開発者によって解決可能であることを示唆している。
我々の研究は、LLMと人間レビュアーの相補性を強調し、LLMを利用したコードレビューツールの実用性を改善するための提案を行っている。
関連論文リスト
- Does AI Code Review Lead to Code Changes? A Case Study of GitHub Actions [21.347559936084807]
AIベースのコードレビューツールは、コード品質を改善するためにプルリクエストを自動的にレビューし、コメントする。
我々は,GitHubで人気の高いAIベースのコードレビューアクション16件について,大規模な実証的研究を行った。
これらのツールがどのように採用され、設定されているか、コメントがコードの変更につながるかどうか、そしてどの要因がそれらの効果に影響を与えるかを調査する。
論文 参考訳(メタデータ) (2025-08-26T07:55:23Z) - Exploring the Potential of Large Language Models in Fine-Grained Review Comment Classification [4.61232919707345]
大きな言語モデル(LLM)は17のカテゴリのコードレビューコメントを分類することができる。
LLMは、最も有用な5つのカテゴリの分類において、より良い精度を達成する。
これらの結果は、LLMがコードレビュー分析にスケーラブルなソリューションを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-08-13T14:07:05Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Leveraging Reward Models for Guiding Code Review Comment Generation [13.306560805316103]
コードレビューは、コード品質の評価、潜在的な問題に対するフィードバックの提供、特定された問題に対処するためのコード修正を含む、現代のソフトウェア開発において重要なコンポーネントである。
ディープラーニングのテクニックは、人間のレビュアーが行うようなコードにコメントすることで、コードレビューのジェネレーティブな側面に取り組むことができる。
本稿では,報酬機構を備えた強化学習を活用することによって,レビューコメント生成を自動化するディープラーニングフレームワークであるCoRALを紹介する。
論文 参考訳(メタデータ) (2025-06-04T21:31:38Z) - CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。
具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。
さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文 参考訳(メタデータ) (2025-02-23T15:36:43Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Exploring the Advances in Identifying Useful Code Review Comments [0.0]
本稿では,コードレビューコメントの有用性に関する研究の進化を反映する。
コードレビューコメントの有用性を定義し、データセットのマイニングとアノテーションを定義し、開発者の認識を調査し、異なる側面から要因を分析し、機械学習分類器を使用してコードレビューコメントの有用性を自動的に予測する。
論文 参考訳(メタデータ) (2023-07-03T00:41:20Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。