Fugu-MT 論文翻訳(概要): Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword?

論文の概要: Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword?

arxiv url: http://arxiv.org/abs/2411.11401v2
Date: Wed, 20 Nov 2024 09:44:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.654919
Title: Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword?
Title（参考訳）: ディープラーニングベースのコードレビュー: パラダイムシフトか、ダブルエッジの剣か?
Authors: Rosalia Tufano, Alberto Martin-Lopez, Ahmad Tayeb, Ozren Dabić, Sonia Haiduc, Gabriele Bavota,
Abstract要約: 私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
参考スコア（独自算出の注目度）: 14.970843824847956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several techniques have been proposed to automate code review. Early support consisted in recommending the most suited reviewer for a given change or in prioritizing the review tasks. With the advent of deep learning in software engineering, the level of automation has been pushed to new heights, with approaches able to provide feedback on source code in natural language as a human reviewer would do. Also, recent work documented open source projects adopting Large Language Models (LLMs) as co-reviewers. Although the research in this field is very active, little is known about the actual impact of including automatically generated code reviews in the code review process. While there are many aspects worth investigating, in this work we focus on three of them: (i) review quality, i.e., the reviewer's ability to identify issues in the code; (ii) review cost, i.e., the time spent reviewing the code; and (iii) reviewer's confidence, i.e., how confident is the reviewer about the provided feedback. We run a controlled experiment with 29 experts who reviewed different programs with/without the support of an automatically generated code review. During the experiment we monitored the reviewers' activities, for over 50 hours of recorded code reviews. We show that reviewers consider valid most of the issues automatically identified by the LLM and that the availability of an automated review as a starting point strongly influences their behavior: Reviewers tend to focus on the code locations indicated by the LLM rather than searching for additional issues in other parts of the code. The reviewers who started from an automated review identified a higher number of low-severity issues while, however, not identifying more high-severity issues as compared to a completely manual process. Finally, the automated support did not result in saved time and did not increase the reviewers' confidence.
Abstract（参考訳）: コードレビューを自動化するために、いくつかのテクニックが提案されている。初期のサポートは、与えられた変更やレビュータスクの優先順位付けに最も適したレビュアーを推薦することであった。ソフトウェアエンジニアリングにおけるディープラーニングの出現により、自動化のレベルが新たなレベルへと押し上げられ、人間のレビュアーが行うように、自然言語のソースコードに対するフィードバックを提供するアプローチが実現された。また、最近の研究は、LLM(Large Language Models)を共ビューアとして採用したオープンソースプロジェクトを文書化した。この分野での研究は非常に活発であるが、コードレビュープロセスに自動的に生成されたコードレビューを含めることの実際の影響についてはほとんど分かっていない。調査する価値のある側面はたくさんありますが、この作業では、3つに重点を置いています。 i) 品質,すなわち,コード内の問題を識別するレビュアーの能力についてレビューすること。 (二)コードレビューの費用、すなわちコードレビューの時間、及び (三)レビュアーの自信、すなわち、提供されたフィードバックに対するレビュアーの自信はどの程度あるか。私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。実験では、50時間以上のコードレビューを通じて、レビュアの活動を監視しました。レビュー担当者は、LLMによって自動的に特定される問題の大部分を有効とみなし、自動化されたレビューを出発点として利用できることは、彼らの行動に強く影響を及ぼすことを示した。しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。最後に、自動的なサポートは時間の節約には至らず、レビュー担当者の自信を増すことはなかった。

関連論文リスト

Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文参考訳（メタデータ） (2026-01-17T20:32:18Z)
Automated Code Review Using Large Language Models at Ericsson: An Experience Report [3.82053496282075]
Ericssonのコードレビュープロセスを自動化するために、Large Language Modelsを使った経験について説明する。次に、コードレビューツールと奨励的な結果を評価するための、経験豊富な開発者との予備実験について説明する。
論文参考訳（メタデータ） (2025-07-25T09:50:48Z)
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.86204862475864]
Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。 ICLR 2025で大規模なランダム化制御研究として実装された。フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
論文参考訳（メタデータ） (2025-04-13T22:01:25Z)
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文参考訳（メタデータ） (2025-02-23T15:36:43Z)
Automated Code Review In Practice [1.6271516689052665]
Qodo、GitHub Copilot、CoderabbitなどのAI支援ツールが、大規模な言語モデル(LLM)を使用して自動レビューを提供する。本研究では,LLMに基づく自動コードレビューツールが産業環境に与える影響について検討する。
論文参考訳（メタデータ） (2024-12-24T16:24:45Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
Predicting Expert Evaluations in Software Code Reviews [8.012861163935904]
本稿では,その複雑さや主観性から回避されるコードレビューの側面を自動化するアルゴリズムモデルを提案する。手作業によるレビューを置き換える代わりに、私たちのモデルは、レビュアーがより影響力のあるタスクに集中するのに役立つ洞察を追加します。
論文参考訳（メタデータ） (2024-09-23T16:01:52Z)
Leveraging Reviewer Experience in Code Review Comment Generation [11.224317228559038]
私たちは、自然言語のコードレビューを提供する際に、人間のレビュアーを模倣するためにディープラーニングモデルを訓練します。生成したレビューの品質は、モデルトレーニングで使用されるオープンソースのコードレビューデータの品質のため、まだ最適化されていない。本稿では,レビュー品質の指標として,過去のレビュアのオーサリングとレビューを活かした経験学習手法を提案する。
論文参考訳（メタデータ） (2024-09-17T07:52:50Z)
Improving Automated Code Reviews: Learning from Experience [12.573740138977065]
本研究では,自動コードレビューモデルから高品質なレビューを生成できるかどうかを検討する。経験を意識したオーバーサンプリングは、レビューの正確性、情報レベル、有意義性を高めることができる。
論文参考訳（メタデータ） (2024-02-06T07:48:22Z)
Code Review Automation: Strengths and Weaknesses of the State of the Art [14.313783664862923]
3つのコードレビュー自動化技術は、この論文で説明した2つのタスクで成功するか失敗する傾向があります。この研究は質的な焦点が強く、正確な予測と間違った予測の分析に105時間のマニュアルインスペクションが費やされている。
論文参考訳（メタデータ） (2024-01-10T13:00:18Z)
Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and Bystanders [6.538051328482194]
当社は2018年のRevRecV1以降生産されているレコメンデータを構築しています。私たちは、レビュアーがファイルの以前のオーサシップに基づいて割り当てられていることに気付きました。レビューに責任を持つ個人を持つことは、レビューにかかる時間を11%削減する。
論文参考訳（メタデータ） (2023-12-28T17:55:13Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文参考訳（メタデータ） (2021-01-30T07:16:53Z)
Deep Just-In-Time Inconsistency Detection Between Comments and Source Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文参考訳（メタデータ） (2020-10-04T16:49:28Z)
Code Review in the Classroom [57.300604527924015]
教室設定の若い開発者は、コードレビュープロセスの潜在的に有利で問題のある領域の明確な図を提供している。彼らのフィードバックは、プロセスはプロセスを改善するためにいくつかのポイントで十分に受け入れられていることを示唆している。本論文は,教室でコードレビューを行うためのガイドラインとして利用することができる。
論文参考訳（メタデータ） (2020-04-19T06:07:45Z)
Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。 58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文参考訳（メタデータ） (2020-02-10T05:23:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。