論文の概要: Deep Assessment of Code Review Generation Approaches: Beyond Lexical Similarity
- arxiv url: http://arxiv.org/abs/2501.05176v1
- Date: Thu, 09 Jan 2025 11:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:07.938339
- Title: Deep Assessment of Code Review Generation Approaches: Beyond Lexical Similarity
- Title(参考訳): コードレビュー生成アプローチの深い評価 - 語彙的類似性を超えて
- Authors: Yanjie Jiang, Hui Liu, Tianyi Chen, Fu Fan, Chunhao Dong, Kui Liu, Lu Zhang,
- Abstract要約: コードレビューを評価するための2つの新しいセマンティックベースのアプローチを提案する。
最初のアプローチでは、生成されたレビューと参照の両方をディープラーニングモデルを使用してデジタルベクトルに変換する。
2つ目のアプローチは、生成されたレビューとその参照に基づいてプロンプトを生成し、このプロンプトをChatGPTに送信し、生成されたレビューを評価するためにChatGPTを要求する。
- 参考スコア(独自算出の注目度): 27.92468098611616
- License:
- Abstract: Code review is a standard practice for ensuring the quality of software projects, and recent research has focused extensively on automated code review. While significant advancements have been made in generating code reviews, the automated assessment of these reviews remains less explored, with existing approaches and metrics often proving inaccurate. Current metrics, such as BLEU, primarily rely on lexical similarity between generated and reference reviews. However, such metrics tend to underestimate reviews that articulate the expected issues in ways different from the references. In this paper, we explore how semantic similarity between generated and reference reviews can enhance the automated assessment of code reviews. We first present a benchmark called \textit{GradedReviews}, which is constructed by collecting real-world code reviews from open-source projects, generating reviews using state-of-the-art approaches, and manually assessing their quality. We then evaluate existing metrics for code review assessment using this benchmark, revealing their limitations. To address these limitations, we propose two novel semantic-based approaches for assessing code reviews. The first approach involves converting both the generated review and its reference into digital vectors using a deep learning model and then measuring their semantic similarity through Cosine similarity. The second approach generates a prompt based on the generated review and its reference, submits this prompt to ChatGPT, and requests ChatGPT to rate the generated review according to explicitly defined criteria. Our evaluation on the \textit{GradedReviews} benchmark indicates that the proposed semantic-based approaches significantly outperform existing state-of-the-art metrics in assessing generated code review, improving the correlation coefficient between the resulting scores and human scores from 0.22 to 0.47.
- Abstract(参考訳): コードレビューはソフトウェアプロジェクトの品質を保証するための標準的なプラクティスであり、最近の研究はコードレビューの自動化に重点を置いている。
コードレビューの生成には大きな進歩があったが、これらのレビューの自動評価については、まだ調査が進んでおらず、既存のアプローチやメトリクスは、しばしば不正確であることを証明している。
BLEUのような現在のメトリクスは、主に生成されたレビューと参照レビューの語彙的類似性に依存している。
しかしながら、そのような指標は、予想される問題を参照と異なる方法で明示するレビューを過小評価する傾向がある。
本稿では,生成されたレビューと参照レビューのセマンティックな類似性によって,コードレビューの自動評価が向上するかを考察する。
これは、オープンソースのプロジェクトから実際のコードレビューを収集し、最先端のアプローチを使ってレビューを生成し、その品質を手動で評価することで構築される。
次に、このベンチマークを用いて、コードレビュー評価のための既存のメトリクスを評価し、それらの制限を明らかにします。
これらの制約に対処するために、コードレビューを評価するための2つの新しい意味に基づくアプローチを提案する。
最初のアプローチでは、生成されたレビューと参照の両方をディープラーニングモデルを使用してデジタルベクトルに変換し、Cosineの類似性を通じてそれらの意味的類似性を測定する。
2つ目のアプローチは、生成されたレビューとその参照に基づいてプロンプトを生成し、このプロンプトをChatGPTに送信し、明示的に定義された基準に従って生成されたレビューを評価するようChatGPTに要求する。
提案手法は,生成したコードレビューの評価において既存の評価基準を著しく上回り,結果のスコアと人のスコアとの相関係数を0.22から0.47に改善することを示す。
関連論文リスト
- CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells [15.66562304661042]
我々は、簡潔さ、包括性、関連性などのレビュー品質の次元を測定するCRSスコアを開発した。
我々は、CRScoreが人間の判断に最も適しているレビュー品質の、正確できめ細かいスコアを生成できることを実証した。
また、自動メトリクスの開発をサポートするために、マシン生成およびGitHubレビューコメントのための2.6kの人手によるレビュー品質スコアのコーパスもリリースしました。
論文 参考訳(メタデータ) (2024-09-29T21:53:18Z) - Predicting Expert Evaluations in Software Code Reviews [8.012861163935904]
本稿では,その複雑さや主観性から回避されるコードレビューの側面を自動化するアルゴリズムモデルを提案する。
手作業によるレビューを置き換える代わりに、私たちのモデルは、レビュアーがより影響力のあるタスクに集中するのに役立つ洞察を追加します。
論文 参考訳(メタデータ) (2024-09-23T16:01:52Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization [16.127739014966487]
生成した要約の質を計測する際の様々な種類の指標の相補性について検討する。
我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-24T13:12:39Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z) - A Unified Dual-view Model for Review Summarization and Sentiment
Classification with Inconsistency Loss [51.448615489097236]
ユーザーレビューから正確な要約と感情を取得することは、現代のEコマースプラットフォームにとって不可欠な要素である。
本稿では,これら2つのタスクの性能を協調的に改善する新しいデュアルビューモデルを提案する。
異なる領域の4つの実世界のデータセットに対する実験結果から,本モデルの有効性が示された。
論文 参考訳(メタデータ) (2020-06-02T13:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。