論文の概要: Impact of LLM-based Review Comment Generation in Practice: A Mixed Open-/Closed-source User Study
- arxiv url: http://arxiv.org/abs/2411.07091v1
- Date: Mon, 11 Nov 2024 16:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:23.999809
- Title: Impact of LLM-based Review Comment Generation in Practice: A Mixed Open-/Closed-source User Study
- Title(参考訳): LLMによるレビューコメント生成の実践的影響:オープンソース/クローズド・ユーザー・スタディ
- Authors: Doriane Olewicki, Leuson Da Silva, Suhaib Mujahid, Arezou Amini, Benjamin Mah, Marco Castelluccio, Sarra Habchi, Foutse Khomh, Bram Adams,
- Abstract要約: このユーザスタディはMozillaとUbisoftの2つの組織で実施された。
LLM生成コメントの8.1%と7.2%が各組織のレビュアーによって受け入れられた。
リファクタリング関連のコメントは、機能的なコメントよりも受け入れやすい。
- 参考スコア(独自算出の注目度): 13.650356901064807
- License:
- Abstract: We conduct a large-scale empirical user study in a live setup to evaluate the acceptance of LLM-generated comments and their impact on the review process. This user study was performed in two organizations, Mozilla (which has its codebase available as open source) and Ubisoft (fully closed-source). Inside their usual review environment, participants were given access to RevMate, an LLM-based assistive tool suggesting generated review comments using an off-the-shelf LLM with Retrieval Augmented Generation to provide extra code and review context, combined with LLM-as-a-Judge, to auto-evaluate the generated comments and discard irrelevant cases. Based on more than 587 patch reviews provided by RevMate, we observed that 8.1% and 7.2%, respectively, of LLM-generated comments were accepted by reviewers in each organization, while 14.6% and 20.5% other comments were still marked as valuable as review or development tips. Refactoring-related comments are more likely to be accepted than Functional comments (18.2% and 18.6% compared to 4.8% and 5.2%). The extra time spent by reviewers to inspect generated comments or edit accepted ones (36/119), yielding an overall median of 43s per patch, is reasonable. The accepted generated comments are as likely to yield future revisions of the revised patch as human-written comments (74% vs 73% at chunk-level).
- Abstract(参考訳): 我々は,LLM生成コメントの受け入れとレビュープロセスへの影響を評価するために,大規模な経験的ユーザスタディをライブ設定で実施する。
このユーザスタディは、Mozilla(オープンソースとしてコードベースが利用可能)とUbisoft(完全にクローズドソース)の2つの組織で実施された。
参加者は通常のレビュー環境の中で、LLMベースの支援ツールであるRevMateにアクセスして、LLM-as-a-Judgeと組み合わされた余分なコードとレビューコンテキストを提供することで、生成されたコメントを自動評価し、無関係なケースを破棄する。
RevMateが提供した587以上のパッチレビューに基づいて、各組織のレビュアーは、それぞれ8.1%と7.2%、その他の14.6%と20.5%のコメントをレビューや開発ヒントとして評価している。
リファクタリング関連のコメントは、機能的なコメントよりも受け入れやすい(18.2%と18.6%)。
レビューが生成したコメントを検査したり、承認されたコメントを編集するのに費やす余分な時間(36/119)は、1パッチあたり43秒という全体中央値になります。
承認された生成されたコメントは、人間が書いたコメント(チャンクレベルでは74%対73%)と同様、将来の修正版になる可能性が高い。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - LLM-Cure: LLM-based Competitor User Review Analysis for Feature Enhancement [0.7285835869818668]
本稿では,大規模言語モデル(LLM)に基づく機能拡張のための競合ユーザレビュー分析を提案する。
LLM-Cureは、LCMを適用して、レビュー内の特徴を特定し、分類する。
LLM-Cureは、ユーザーレビューに苦情を付けると、苦情に関連する競合アプリの高い評価(4と5の星)のレビューをキュレートする。
論文 参考訳(メタデータ) (2024-09-24T04:17:21Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - An Empirical Study on Code Review Activity Prediction and Its Impact in Practice [7.189276599254809]
本稿では,提案パッチのどのファイルにコメントが必要か,(2)修正,(3)ホットスポットかを予測することで,コードレビュアを支援することを目的とする。
3つのオープンソースと2つの産業データセットに関する実証的研究は、コード埋め込みとレビュープロセスの機能を組み合わせることで、最先端のアプローチよりも優れた結果をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-04-16T16:20:02Z) - MARG: Multi-Agent Review Generation for Scientific Papers [28.78019426139167]
内部議論に携わる複数のLLMインスタンスを用いたフィードバック生成手法であるMARGを開発した。
エージェント間で紙テキストを分散することにより、MARGはベースLLMの入力長制限を超えて、論文の全文を消費することができる。
ユーザスタディでは、GPT-4を用いたベースラインメソッドは、ジェネリックコメントや非常にジェネリックコメントを半分以上の時間で生成するものとして評価された。
本システムでは, GPT-4による具体的なフィードバック生成能力を大幅に向上させ, 一般的なコメントの率を60%から29%に削減し, 紙あたり3.7の良質なコメントを生成する(2.2倍)。
論文 参考訳(メタデータ) (2024-01-08T22:24:17Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - ReAct: A Review Comment Dataset for Actionability (and more) [0.8885727065823155]
注釈付きレビューコメントデータセットReActを紹介する。
レビューコメントはOpenReviewのサイトから引用されている。
これらのレビューのためのアノテーションをクラウドソースで公開しています。
論文 参考訳(メタデータ) (2022-10-02T07:09:38Z) - Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。
58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-10T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。