論文の概要: Studying Quality Improvements Recommended via Manual and Automated Code Review
- arxiv url: http://arxiv.org/abs/2602.11925v1
- Date: Thu, 12 Feb 2026 13:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.831521
- Title: Studying Quality Improvements Recommended via Manual and Automated Code Review
- Title(参考訳): 手書きおよび自動コードレビューによる品質改善の検討
- Authors: Giuseppe Crupi, Rosalia Tufano, Gabriele Bavota,
- Abstract要約: 本研究では,人間が行うコードレビューと,ディープラーニングモデルで自動生成するコードレビューの類似点と相違点について検討する。
ChatGPTは、人間のレビュアーに比べ、より多くのコード変更を推奨する傾向にあるが、人間の報告する品質問題のうち10%しか見つからない。
この発見は、DLベースのコードレビューが、人間によって実行されるコードの上にさらなる品質チェックとして使用できることを示唆している。
- 参考スコア(独自算出の注目度): 14.067404766521607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several Deep Learning (DL)-based techniques have been proposed to automate code review. Still, it is unclear the extent to which these approaches can recommend quality improvements as a human reviewer. We study the similarities and differences between code reviews performed by humans and those automatically generated by DL models, using ChatGPT-4 as representative of the latter. In particular, we run a mining-based study in which we collect and manually inspect 739 comments posted by human reviewers to suggest code changes in 240 PRs. The manual inspection aims at classifying the type of quality improvement recommended by human reviewers (e.g., rename variable/constant). Then, we ask ChatGPT to perform a code review on the same PRs and we compare the quality improvements it recommends against those suggested by the human reviewers. We show that while, on average, ChatGPT tends to recommend a higher number of code changes as compared to human reviewers (~2.4x more), it can only spot 10% of the quality issues reported by humans. However, ~40% of the additional comments generated by the LLM point to meaningful quality issues. In short, our findings show the complementarity of manual and AI-based code review. This finding suggests that, in its current state, DL-based code review can be used as a further quality check on top of the one performed by humans, but should not be considered as a valid alternative to them nor as a mean to save code review time, since human reviewers would still need to perform their manual inspection while also validating the quality issues reported by the DL-based technique.
- Abstract(参考訳): コードレビューを自動化するために、いくつかのDeep Learning (DL)ベースの技術が提案されている。
それでも、これらのアプローチが人間レビュアーとして品質改善を推奨できる範囲は不明確である。
本稿では,人間によるコードレビューとDLモデルで自動生成するコードレビューの類似点と相違点について,ChatGPT-4を用いて検討した。
特に、240のPRでコード変更を提案するために、人間のレビュアーが投稿した739のコメントを、マイニングベースの調査で収集し、手動で検査します。
手動検査は、人間レビュアーが推奨する品質改善のタイプ(例えば、変数/インスタンス)を分類することを目的としている。
次に、ChatGPTに同じPR上でコードレビューを行うことを依頼し、人間のレビュアーが推奨する品質改善と比較する。
平均すると、ChatGPTは人間のレビュアー(~2.4倍)に比べてコードの変更を推奨する傾向にあるが、人間の報告する品質問題のうち10%しか見つからない。
しかし、LCMが生成した追加コメントの約40%は、有意義な品質問題を示している。
簡単に言えば、手動およびAIベースのコードレビューの相補性を示している。
この発見は、DLベースのコードレビューが、人間によるコードレビューのさらなる品質チェックとして利用できることを示唆している。
関連論文リスト
- Is Peer Review Really in Decline? Analyzing Review Quality across Venues and Time [55.756345497678204]
本稿では,エビデンスに基づくレビュー品質の比較研究のための新しいフレームワークを提案する。
ICLR、NeurIPS、*ACLといった主要なAIおよび機械学習のカンファレンスに適用します。
レビュー品質の測定値と時間経過に伴うその進化の関係について検討する。
論文 参考訳(メタデータ) (2026-01-21T16:48:29Z) - On Assessing the Relevance of Code Reviews Authored by Generative Models [4.096540146408279]
我々は,多目的ランキング(multi-jective ranking)と呼ばれる手法に基づく新しい評価手法を提案する。
CodeReview StackExchangeからの280の自己完結したコードレビューリクエストとそれに対応するコメントのデータセットを使用して、複数のヒューマンジャッジがChatGPT生成したコメントの品質を、プラットフォームからのトップヒューマンレスポンスとともにランク付けした。
結果から、ChatGPTのコメントは、StackExchangeの回答をはるかに上回っても、人間よりも格段に良かったことが分かる。
論文 参考訳(メタデータ) (2025-12-17T14:12:31Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。
大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。
命令ベースのデータセットの微調整により、パフォーマンスが10~20ポイント向上する。
論文 参考訳(メタデータ) (2025-04-15T10:07:33Z) - Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword? [14.970843824847956]
私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。
本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。
しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
論文 参考訳(メタデータ) (2024-11-18T09:24:01Z) - Improving Automated Code Reviews: Learning from Experience [12.573740138977065]
本研究では,自動コードレビューモデルから高品質なレビューを生成できるかどうかを検討する。
経験を意識したオーバーサンプリングは、レビューの正確性、情報レベル、有意義性を高めることができる。
論文 参考訳(メタデータ) (2024-02-06T07:48:22Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。