論文の概要: Exploring the Potential of Large Language Models in Fine-Grained Review Comment Classification
- arxiv url: http://arxiv.org/abs/2508.09832v1
- Date: Wed, 13 Aug 2025 14:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.922853
- Title: Exploring the Potential of Large Language Models in Fine-Grained Review Comment Classification
- Title(参考訳): 細粒度レビューコメント分類における大規模言語モデルの可能性を探る
- Authors: Linh Nguyen, Chunhua Liu, Hong Yi Lin, Patanamon Thongtanunam,
- Abstract要約: 大きな言語モデル(LLM)は17のカテゴリのコードレビューコメントを分類することができる。
LLMは、最も有用な5つのカテゴリの分類において、より良い精度を達成する。
これらの結果は、LLMがコードレビュー分析にスケーラブルなソリューションを提供する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 4.61232919707345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code review is a crucial practice in software development. As code review nowadays is lightweight, various issues can be identified, and sometimes, they can be trivial. Research has investigated automated approaches to classify review comments to gauge the effectiveness of code reviews. However, previous studies have primarily relied on supervised machine learning, which requires extensive manual annotation to train the models effectively. To address this limitation, we explore the potential of using Large Language Models (LLMs) to classify code review comments. We assess the performance of LLMs to classify 17 categories of code review comments. Our results show that LLMs can classify code review comments, outperforming the state-of-the-art approach using a trained deep learning model. In particular, LLMs achieve better accuracy in classifying the five most useful categories, which the state-of-the-art approach struggles with due to low training examples. Rather than relying solely on a specific small training data distribution, our results show that LLMs provide balanced performance across high- and low-frequency categories. These results suggest that the LLMs could offer a scalable solution for code review analytics to improve the effectiveness of the code review process.
- Abstract(参考訳): コードレビューはソフトウェア開発において重要なプラクティスです。
現在のコードレビューは軽量であるため、さまざまな問題が特定できる。
コードレビューの有効性を評価するために、レビューコメントを分類するための自動アプローチを調査してきた。
しかし、従来の研究は主に教師付き機械学習に依存しており、モデルを効果的に訓練するためには広範囲な手動アノテーションが必要である。
この制限に対処するため、コードレビューコメントを分類するためにLLM(Large Language Models)を使用する可能性を探る。
コードレビューコメントの17カテゴリを分類するために,LLMの性能を評価する。
この結果から,LLMはコードレビューのコメントを分類し,訓練されたディープラーニングモデルを用いて最先端のアプローチよりも優れていることがわかった。
特に、LLMは、訓練の少ない例のために最先端のアプローチが苦労している5つの最も有用なカテゴリの分類において、より正確な精度を実現している。
この結果から, LLMは, 特定の訓練データ分布にのみ依存するのではなく, 高頻度と低頻度のカテゴリ間でバランスの取れた性能を提供することがわかった。
これらの結果は、LLMがコードレビュープロセスの有効性を改善するために、コードレビュー分析のためのスケーラブルなソリューションを提供する可能性があることを示唆している。
関連論文リスト
- CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation [14.521056434373213]
評価子として大きな言語モデルを使用すると、コード評価タスクに拡張される。
LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか?
コード評価における潜在的なバイアスを6種類定義し,この問題を包括的に検討した。
論文 参考訳(メタデータ) (2025-05-22T04:49:33Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - AI-powered Code Review with LLMs: Early Results [10.37036924997437]
本稿では,Large Language Model (LLM) ベースのモデルを用いて,ソフトウェアの品質と効率を改善する新しい手法を提案する。
提案するLLMベースのAIエージェントモデルは,大規模コードリポジトリ上でトレーニングされている。
コードの臭いを検出し、潜在的なバグを特定し、改善の提案を提供し、コードを最適化することを目的としている。
論文 参考訳(メタデータ) (2024-04-29T08:27:50Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。