論文の概要: CodeReviewer: Pre-Training for Automating Code Review Activities
- arxiv url: http://arxiv.org/abs/2203.09095v1
- Date: Thu, 17 Mar 2022 05:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:16:44.477569
- Title: CodeReviewer: Pre-Training for Automating Code Review Activities
- Title(参考訳): CodeReviewer: コードレビューアクティビティを自動化するための事前トレーニング
- Authors: Zhiyu Li, Shuai Lu, Daya Guo, Nan Duan, Shailesh Jannu, Grant Jenks,
Deep Majumder, Jared Green, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan
- Abstract要約: 本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。
私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。
コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
- 参考スコア(独自算出の注目度): 36.40557768557425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code review is an essential part to software development lifecycle since it
aims at guaranteeing the quality of codes. Modern code review activities
necessitate developers viewing, understanding and even running the programs to
assess logic, functionality, latency, style and other factors. It turns out
that developers have to spend far too much time reviewing the code of their
peers. Accordingly, it is in significant demand to automate the code review
process. In this research, we focus on utilizing pre-training techniques for
the tasks in the code review scenario. We collect a large-scale dataset of real
world code changes and code reviews from open-source projects in nine of the
most popular programming languages. To better understand code diffs and
reviews, we propose CodeReviewer, a pre-trained model that utilizes four
pre-training tasks tailored specifically for the code review senario. To
evaluate our model, we focus on three key tasks related to code review
activities, including code change quality estimation, review comment generation
and code refinement. Furthermore, we establish a high-quality benchmark dataset
based on our collected data for these three tasks and conduct comprehensive
experiments on it. The experimental results demonstrate that our model
outperforms the previous state-of-the-art pre-training approaches in all tasks.
Further analysis show that our proposed pre-training tasks and the multilingual
pre-training dataset benefit the model on the understanding of code changes and
reviews.
- Abstract(参考訳): コードレビューは、コードの品質を保証することを目的としているため、ソフトウェア開発ライフサイクルにとって不可欠な部分です。
現代のコードレビュー活動は、開発者がロジック、機能、レイテンシ、スタイルなどを評価するためにプログラムを見て、理解し、実行することを必要とします。
その結果、開発者は仲間のコードをレビューするのに多くの時間を費やす必要があることがわかった。
したがって、コードレビュープロセスを自動化することは非常に要求される。
本研究では,コードレビューシナリオにおけるタスクの事前学習手法の活用に焦点をあてる。
私たちは、最も人気のある9つのプログラミング言語のオープンソースプロジェクトから、実際のコード変更とコードレビューの大規模なデータセットを収集します。
コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
本モデルを評価するために,コード変更品質評価,レビューコメント生成,コード修正など,コードレビュー活動に関連する3つの重要なタスクに着目した。
さらに,これら3つのタスクについて収集したデータに基づいて,高品質なベンチマークデータセットを構築し,総合的な実験を行う。
実験結果から,本モデルが従来の先行訓練手法よりも優れていることが示された。
さらに分析した結果,提案する事前学習タスクと多言語事前学習データセットは,コード変更やレビューの理解に有利であることがわかった。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Leveraging Reviewer Experience in Code Review Comment Generation [11.224317228559038]
私たちは、自然言語のコードレビューを提供する際に、人間のレビュアーを模倣するためにディープラーニングモデルを訓練します。
生成したレビューの品質は、モデルトレーニングで使用されるオープンソースのコードレビューデータの品質のため、まだ最適化されていない。
本稿では,レビュー品質の指標として,過去のレビュアのオーサリングとレビューを活かした経験学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T07:52:50Z) - Improving Automated Code Reviews: Learning from Experience [12.573740138977065]
本研究では,自動コードレビューモデルから高品質なレビューを生成できるかどうかを検討する。
経験を意識したオーバーサンプリングは、レビューの正確性、情報レベル、有意義性を高めることができる。
論文 参考訳(メタデータ) (2024-02-06T07:48:22Z) - Improving the Learning of Code Review Successive Tasks with Cross-Task
Knowledge Distillation [1.0878040851638]
本研究では,これらのタスクを同時に処理するために,クロスタスク知識蒸留を利用した新しいディープラーニングアーキテクチャdisCOREVを紹介する。
提案手法は, BLEUスコアによる評価値と, CodeBLEUスコアによるより正確なコード修正値から, より良いレビューコメントを生成する。
論文 参考訳(メタデータ) (2024-02-03T07:02:22Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Predicting Code Review Completion Time in Modern Code Review [12.696276129130332]
Modern Code Review (MCR)は、オープンソースと商用の両方で共通のプラクティスとして採用されている。
コードレビューは、様々な社会的技術的要因のために完了するのにかなりの遅延を経験することができる。
コードレビューの完了に必要な時間を見積もるためのツールサポートが不足している。
論文 参考訳(メタデータ) (2021-09-30T14:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。