論文の概要: On Assessing the Relevance of Code Reviews Authored by Generative Models
- arxiv url: http://arxiv.org/abs/2512.15466v1
- Date: Wed, 17 Dec 2025 14:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.019501
- Title: On Assessing the Relevance of Code Reviews Authored by Generative Models
- Title(参考訳): 生成モデルによるコードレビューの妥当性評価について
- Authors: Robert Heumüller, Frank Ortmeier,
- Abstract要約: 我々は,多目的ランキング(multi-jective ranking)と呼ばれる手法に基づく新しい評価手法を提案する。
CodeReview StackExchangeからの280の自己完結したコードレビューリクエストとそれに対応するコメントのデータセットを使用して、複数のヒューマンジャッジがChatGPT生成したコメントの品質を、プラットフォームからのトップヒューマンレスポンスとともにランク付けした。
結果から、ChatGPTのコメントは、StackExchangeの回答をはるかに上回っても、人間よりも格段に良かったことが分かる。
- 参考スコア(独自算出の注目度): 4.096540146408279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of large language models like ChatGPT in code review offers promising efficiency gains but also raises concerns about correctness and safety. Existing evaluation methods for code review generation either rely on automatic comparisons to a single ground truth, which fails to capture the variability of human perspectives, or on subjective assessments of "usefulness", a highly ambiguous concept. We propose a novel evaluation approach based on what we call multi-subjective ranking. Using a dataset of 280 self-contained code review requests and corresponding comments from CodeReview StackExchange, multiple human judges ranked the quality of ChatGPT-generated comments alongside the top human responses from the platform. Results show that ChatGPT's comments were ranked significantly better than human ones, even surpassing StackExchange's accepted answers. Going further, our proposed method motivates and enables more meaningful assessments of generative AI's performance in code review, while also raising awareness of potential risks of unchecked integration into review processes.
- Abstract(参考訳): コードレビューにおけるChatGPTのような大きな言語モデルの使用は、有望な効率向上を提供するだけでなく、正確性と安全性に関する懸念も引き起こす。
既存のコードレビュー生成の評価手法は、人間の視点の多様性を捉えるのに失敗する単一根拠の真実に対する自動的な比較や、非常に曖昧な概念である「有用性」の主観的な評価に頼っている。
我々は,多目的ランキング(multi-jective ranking)と呼ばれる手法に基づく新しい評価手法を提案する。
CodeReview StackExchangeからの280の自己完結したコードレビューリクエストとそれに対応するコメントのデータセットを使用して、複数のヒューマンジャッジがChatGPT生成したコメントの品質を、プラットフォームからのトップヒューマンレスポンスとともにランク付けした。
結果から、ChatGPTのコメントは、StackExchangeの回答をはるかに上回っても、人間よりも格段に良かったことが分かる。
さらに,提案手法は,コードレビューにおける生成AIのパフォーマンスをより有意義に評価すると同時に,未確認統合の潜在的なリスクをレビュープロセスに認識する。
関連論文リスト
- CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Leveraging Reward Models for Guiding Code Review Comment Generation [13.306560805316103]
コードレビューは、コード品質の評価、潜在的な問題に対するフィードバックの提供、特定された問題に対処するためのコード修正を含む、現代のソフトウェア開発において重要なコンポーネントである。
ディープラーニングのテクニックは、人間のレビュアーが行うようなコードにコメントすることで、コードレビューのジェネレーティブな側面に取り組むことができる。
本稿では,報酬機構を備えた強化学習を活用することによって,レビューコメント生成を自動化するディープラーニングフレームワークであるCoRALを紹介する。
論文 参考訳(メタデータ) (2025-06-04T21:31:38Z) - CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。
具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。
さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文 参考訳(メタデータ) (2025-02-23T15:36:43Z) - Deep Assessment of Code Review Generation Approaches: Beyond Lexical Similarity [27.92468098611616]
コードレビューを評価するための2つの新しいセマンティックベースのアプローチを提案する。
最初のアプローチでは、生成されたレビューと参照の両方をディープラーニングモデルを使用してデジタルベクトルに変換する。
2つ目のアプローチは、生成されたレビューとその参照に基づいてプロンプトを生成し、このプロンプトをChatGPTに送信し、生成されたレビューを評価するためにChatGPTを要求する。
論文 参考訳(メタデータ) (2025-01-09T11:52:32Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells [15.66562304661042]
CRScoreは、簡潔さ、包括性、関連性といったレビュー品質の次元を測定するための基準のないメトリクスである。
我々は、CRScoreが、オープンソースメトリクスの人間の判断に最も適した、正確できめ細かいレビュー品質のスコアを生成できることを実証した。
また、自動メトリクスの開発をサポートするために、マシン生成およびGitHubレビューコメントのための2.9kの人手によるレビュー品質スコアのコーパスもリリースしました。
論文 参考訳(メタデータ) (2024-09-29T21:53:18Z) - Exploring the Potential of ChatGPT in Automated Code Refinement: An
Empirical Study [0.0]
最先端の言語モデルであるChatGPTは、様々な自然言語処理タスクにおいて印象的なパフォーマンスを示している。
コードレビュータスクにおけるChatGPTの機能を理解するための実証的研究を行った。
その結果,ChatGPTは高いEMとBLEUのスコアを22.78と76.44で達成し,最先端のコードレビューデータセットでは15.50と62.88しか達成していないことがわかった。
論文 参考訳(メタデータ) (2023-09-15T07:41:33Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。