Fugu-MT 論文翻訳(概要): An Empirical Study on Code Review Activity Prediction and Its Impact in Practice

論文の概要: An Empirical Study on Code Review Activity Prediction and Its Impact in Practice

arxiv url: http://arxiv.org/abs/2404.10703v2
Date: Mon, 13 May 2024 13:42:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 23:10:20.431840
Title: An Empirical Study on Code Review Activity Prediction and Its Impact in Practice
Title（参考訳）: コードレビュー活動予測に関する実証的研究とその実践への影響
Authors: Doriane Olewicki, Sarra Habchi, Bram Adams,
Abstract要約: 本稿では,提案パッチのどのファイルにコメントが必要か,(2)修正,(3)ホットスポットかを予測することで,コードレビュアを支援することを目的とする。 3つのオープンソースと2つの産業データセットに関する実証的研究は、コード埋め込みとレビュープロセスの機能を組み合わせることで、最先端のアプローチよりも優れた結果をもたらすことを示しています。
参考スコア（独自算出の注目度）: 7.189276599254809
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: During code reviews, an essential step in software quality assurance, reviewers have the difficult task of understanding and evaluating code changes to validate their quality and prevent introducing faults to the codebase. This is a tedious process where the effort needed is highly dependent on the code submitted, as well as the author's and the reviewer's experience, leading to median wait times for review feedback of 15-64 hours. Through an initial user study carried with 29 experts, we found that re-ordering the files changed by a patch within the review environment has potential to improve review quality, as more comments are written (+23%), and participants' file-level hot-spot precision and recall increases to 53% (+13%) and 28% (+8%), respectively, compared to the alphanumeric ordering. Hence, this paper aims to help code reviewers by predicting which files in a submitted patch need to be (1) commented, (2) revised, or (3) are hot-spots (commented or revised). To predict these tasks, we evaluate two different types of text embeddings (i.e., Bag-of-Words and Large Language Models encoding) and review process features (i.e., code size-based and history-based features). Our empirical study on three open-source and two industrial datasets shows that combining the code embedding and review process features leads to better results than the state-of-the-art approach. For all tasks, F1-scores (median of 40-62%) are significantly better than the state-of-the-art (from +1 to +9%).
Abstract（参考訳）: コードレビューの間、ソフトウェア品質の保証において重要なステップである、レビュー担当者は、コードの変更を理解して評価し、品質を検証し、コードベースに欠陥を導入しないようにする難しいタスクを持っています。これは退屈なプロセスであり、必要な労力は提出されたコードや著者やレビュアーの経験に大きく依存する。 29名の専門家による最初のユーザスタディにより、レビュー環境内のパッチによって変更されたファイルの並べ替えは、より多くのコメントが書かれ(+23%)、参加者のファイルレベルのホットスポット精度が53%(+13%)と28%(+8%)に増加し、レビュー品質が向上する可能性が示唆された。そこで本論文は,(1)コメント,(2)改訂,(3)ホットスポット(補足,あるいは改訂)のどのファイルが必要かを予測することで,コードレビュアを支援することを目的とする。これらのタスクを予測するために,2種類のテキスト埋め込み(単語のバグ・オブ・ワードと大言語モデルエンコーディング)とプロセス機能(コードサイズベースと履歴ベース)を評価した。 3つのオープンソースと2つの産業データセットに関する実証的研究は、コード埋め込みとレビュープロセスの機能を組み合わせることで、最先端のアプローチよりも優れた結果をもたらすことを示しています。全てのタスクにおいて、F1スコア(40-62%)は最先端(+1から+9%)よりもはるかに優れている。

関連論文リスト

Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文参考訳（メタデータ） (2026-01-09T02:38:24Z)
What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation [59.626962970198434]
最初の大規模ベンチマークであるLongStoryEvalを導入し,平均121Kトークン(最大397K)の600冊を新たに発行した。ユーザによるすべての側面の分析により、評価基準構造を提案し、最も重要な側面を識別するための実験を行う。評価手法として,アグリゲーションベース,インクリメンタル更新,要約ベースの評価の3つのタイプの有効性を比較した。
論文参考訳（メタデータ） (2025-12-14T20:53:29Z)
Code Review as Decision-Making -- Building a Cognitive Model from the Questions Asked During Code Review [2.8299846354183953]
コードレビューの認知モデルを構築し、翻訳された資料の主題的、統計的、時間的、シーケンシャルな分析を通じてボトムアップする。まず、コンテキストと合理性を確立するための配向フェーズ、次に、レビューの残りの部分を理解し、評価し、計画するための分析フェーズです。
論文参考訳（メタデータ） (2025-07-13T14:04:16Z)
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword? [14.970843824847956]
私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
論文参考訳（メタデータ） (2024-11-18T09:24:01Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
Improving Automated Code Reviews: Learning from Experience [12.573740138977065]
本研究では,自動コードレビューモデルから高品質なレビューを生成できるかどうかを検討する。経験を意識したオーバーサンプリングは、レビューの正確性、情報レベル、有意義性を高めることができる。
論文参考訳（メタデータ） (2024-02-06T07:48:22Z)
Code Review Automation: Strengths and Weaknesses of the State of the Art [14.313783664862923]
3つのコードレビュー自動化技術は、この論文で説明した2つのタスクで成功するか失敗する傾向があります。この研究は質的な焦点が強く、正確な予測と間違った予測の分析に105時間のマニュアルインスペクションが費やされている。
論文参考訳（メタデータ） (2024-01-10T13:00:18Z)
Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T07:41:03Z)
CodeReviewer: Pre-Training for Automating Code Review Activities [36.40557768557425]
本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
論文参考訳（メタデータ） (2022-03-17T05:40:13Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Hierarchical Bi-Directional Self-Attention Networks for Paper Review Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文参考訳（メタデータ） (2020-11-02T08:07:50Z)
ReviewRobot: Explainable Paper Review Generation based on Knowledge Synthesis [62.76038841302741]
レビュースコアを自動的に割り当てて,新規性や意味のある比較など,複数のカテゴリのコメントを書くための,新しいReviewRobotを構築した。実験の結果,レビュースコア予測器の精度は71.4%-100%であった。ドメインの専門家による人間による評価は、ReviewRobotが生成したコメントの41.7%-70.5%が有効で建設的であり、その20%は人間が書いたものよりも優れていることを示している。
論文参考訳（メタデータ） (2020-10-13T02:17:58Z)
Deep Just-In-Time Inconsistency Detection Between Comments and Source Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文参考訳（メタデータ） (2020-10-04T16:49:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。