論文の概要: CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells
- arxiv url: http://arxiv.org/abs/2409.19801v2
- Date: Sun, 16 Mar 2025 18:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:58:21.529998
- Title: CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells
- Title(参考訳): CRScore: コードクレームとスモールにおけるコードレビューコメントの自動評価
- Authors: Atharva Naik, Marcus Alenius, Daniel Fried, Carolyn Rose,
- Abstract要約: CRScoreは、簡潔さ、包括性、関連性といったレビュー品質の次元を測定するための基準のないメトリクスである。
我々は、CRScoreが、オープンソースメトリクスの人間の判断に最も適した、正確できめ細かいレビュー品質のスコアを生成できることを実証した。
また、自動メトリクスの開発をサポートするために、マシン生成およびGitHubレビューコメントのための2.9kの人手によるレビュー品質スコアのコーパスもリリースしました。
- 参考スコア(独自算出の注目度): 15.66562304661042
- License:
- Abstract: The task of automated code review has recently gained a lot of attention from the machine learning community. However, current review comment evaluation metrics rely on comparisons with a human-written reference for a given code change (also called a diff). Furthermore, code review is a one-to-many problem, like generation and summarization, with many "valid reviews" for a diff. Thus, we develop CRScore - a reference-free metric to measure dimensions of review quality like conciseness, comprehensiveness, and relevance. We design CRScore to evaluate reviews in a way that is grounded in claims and potential issues detected in the code by LLMs and static analyzers. We demonstrate that CRScore can produce valid, fine-grained scores of review quality that have the greatest alignment with human judgment among open source metrics (0.54 Spearman correlation) and are more sensitive than reference-based metrics. We also release a corpus of 2.9k human-annotated review quality scores for machine-generated and GitHub review comments to support the development of automated metrics.
- Abstract(参考訳): 自動コードレビューのタスクは最近、機械学習コミュニティから多くの注目を集めています。
しかしながら、現在のレビューコメント評価メトリクスは、与えられたコード変更(diffとも呼ばれる)の人書き参照との比較に依存している。
さらに、コードレビューは生成や要約のような一対多の問題であり、差分に対する多くの"無効なレビュー"がある。
そこで我々は,CRScore - 簡潔さ,包括性,関連性といったレビュー品質の次元を計測する基準のない指標を開発する。
我々はCRScoreを設計し、LCMと静的アナライザによって検出されたコードにおけるクレームや潜在的な問題に基づいてレビューを評価する。
CRScoreは、オープンソースメトリクス(0.54Spearman相関)の中で、人間の判断に最も適合し、参照ベースのメトリクスよりも敏感な、有効な、きめ細かいレビュー品質のスコアを生成することができることを実証する。
また、自動メトリクスの開発をサポートするために、マシン生成およびGitHubレビューコメントのための2.9kの人手によるレビュー品質スコアのコーパスもリリースしました。
関連論文リスト
- Deep Assessment of Code Review Generation Approaches: Beyond Lexical Similarity [27.92468098611616]
コードレビューを評価するための2つの新しいセマンティックベースのアプローチを提案する。
最初のアプローチでは、生成されたレビューと参照の両方をディープラーニングモデルを使用してデジタルベクトルに変換する。
2つ目のアプローチは、生成されたレビューとその参照に基づいてプロンプトを生成し、このプロンプトをChatGPTに送信し、生成されたレビューを評価するためにChatGPTを要求する。
論文 参考訳(メタデータ) (2025-01-09T11:52:32Z) - Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。
LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。
CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文 参考訳(メタデータ) (2024-12-02T09:56:18Z) - Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword? [14.970843824847956]
私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。
本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。
しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
論文 参考訳(メタデータ) (2024-11-18T09:24:01Z) - Predicting Expert Evaluations in Software Code Reviews [8.012861163935904]
本稿では,その複雑さや主観性から回避されるコードレビューの側面を自動化するアルゴリズムモデルを提案する。
手作業によるレビューを置き換える代わりに、私たちのモデルは、レビュアーがより影響力のあるタスクに集中するのに役立つ洞察を追加します。
論文 参考訳(メタデータ) (2024-09-23T16:01:52Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and
Bystanders [6.538051328482194]
当社は2018年のRevRecV1以降生産されているレコメンデータを構築しています。
私たちは、レビュアーがファイルの以前のオーサシップに基づいて割り当てられていることに気付きました。
レビューに責任を持つ個人を持つことは、レビューにかかる時間を11%削減する。
論文 参考訳(メタデータ) (2023-12-28T17:55:13Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - What Makes a Code Review Useful to OpenDev Developers? An Empirical
Investigation [4.061135251278187]
コードレビューの有効性が少し改善されても、ソフトウェア開発組織にとってかなりの節約が得られます。
本研究の目的は,コードレビューコメントをOSS開発者に有用なものにする方法を,より精細に理解することである。
論文 参考訳(メタデータ) (2023-02-22T22:48:27Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z) - Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。
58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-10T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。