Fugu-MT 論文翻訳(概要): Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and Bystanders

論文の概要: Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and Bystanders

arxiv url: http://arxiv.org/abs/2312.17169v2
Date: Mon, 05 May 2025 17:59:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 14:45:08.92366
Title: Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and Bystanders
Title（参考訳）: コードレビューアの推奨事項を改善する - 正確性、レイテンシ、ワークロード、傍観者
Authors: Peter C. Rigby, Seth Rogers, Sadruddin Saleem, Parth Suresh, Daniel Suskin, Patrick Riggs, Chandra Maddila, Nachiappan Nagappan,
Abstract要約: 文献でよく使われている特徴に基づいた新しいレコメンデーターを開発した。 2022年春の82k差分におけるA/Bテストでは、新しい推奨値の方が正確で、レイテンシが低かった。 2023年春に12.5kの著者を対象にA/B試験を行い,推奨個人を指定した場合の差分処理に要する時間を大幅に削減した。
参考スコア（独自算出の注目度）: 6.301093158004018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The code review team at Meta is continuously improving the code review process. To evaluate the new recommenders, we conduct three A/B tests which are a type of randomized controlled experimental trial. Expt 1. We developed a new recommender based on features that had been successfully used in the literature and that could be calculated with low latency. In an A/B test on 82k diffs in Spring of 2022, we found that the new recommender was more accurate and had lower latency. Expt 2. Reviewer workload is not evenly distributed, our goal was to reduce the workload of top reviewers. We then ran an A/B test on 28k diff authors in Winter 2023 on a workload balanced recommender. Our A/B test led to mixed results. Expt 3. We suspected the bystander effect might be slowing down reviews of diffs where only a team was assigned. We conducted an A/B test on 12.5k authors in Spring 2023 and found a large decrease in the amount of time it took for diffs to be reviewed when a recommended individual was explicitly assigned. Our findings also suggest there can be a discrepancy between historical back-testing and A/B test experimental findings.
Abstract（参考訳）: Metaのコードレビューチームは継続的にコードレビュープロセスを改善しています。提案手法を評価するため,ランダム化制御試験の一種であるA/B試験を3回実施した。抜粋 1. 文献でうまく使われ、低レイテンシで計算できる機能に基づいた新しいレコメンデータを開発した。 2022年春の82k差分におけるA/Bテストでは、新しい推奨値の方が正確で、レイテンシが低かった。抜粋 2. レビューアの作業負荷は均等に分散されておらず、トップレビュアの作業負荷を減らすことを目的としています。次に、2023年冬に28k diffの著者に対して、ワークロードバランスの取れたレコメンデータでA/Bテストを実行しました。 A/B検査の結果は多種多様であった。抜粋 3 傍観者効果がチームのみを割り当てた差分評価を遅らせているのではないかと疑った。 2023年春に12.5kの著者を対象にA/B試験を行い,推奨された個人を指定した場合の差分処理に要する時間を大幅に削減した。また, 過去のバックテストとA/Bテストとの相違があることも示唆された。

関連論文リスト

Agentic Program Repair from Test Failures at Scale: A Neuro-symbolic approach with static analysis and test execution feedback [11.070932612938154]
我々は、さまざまなソフトウェア製品にまたがる大規模なテスト失敗に基づいて、ソースコードを修正するエンジニアリングエージェントを開発した。静的解析とテストの失敗を通じてエージェントにフィードバックを提供し、ソリューションを洗練できるようにします。 3ヶ月の間に、生成された修正の80%がレビューされ、そのうち31.5%が着陸した。
論文参考訳（メタデータ） (2025-07-24T19:12:32Z)
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.86204862475864]
Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。 ICLR 2025で大規模なランダム化制御研究として実装された。フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
論文参考訳（メタデータ） (2025-04-13T22:01:25Z)
Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword? [14.970843824847956]
私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
論文参考訳（メタデータ） (2024-11-18T09:24:01Z)
CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells [15.66562304661042]
CRScoreは、簡潔さ、包括性、関連性といったレビュー品質の次元を測定するための基準のないメトリクスである。我々は、CRScoreが、オープンソースメトリクスの人間の判断に最も適した、正確できめ細かいレビュー品質のスコアを生成できることを実証した。また、自動メトリクスの開発をサポートするために、マシン生成およびGitHubレビューコメントのための2.9kの人手によるレビュー品質スコアのコーパスもリリースしました。
論文参考訳（メタデータ） (2024-09-29T21:53:18Z)
Leveraging Reviewer Experience in Code Review Comment Generation [11.224317228559038]
私たちは、自然言語のコードレビューを提供する際に、人間のレビュアーを模倣するためにディープラーニングモデルを訓練します。生成したレビューの品質は、モデルトレーニングで使用されるオープンソースのコードレビューデータの品質のため、まだ最適化されていない。本稿では,レビュー品質の指標として,過去のレビュアのオーサリングとレビューを活かした経験学習手法を提案する。
論文参考訳（メタデータ） (2024-09-17T07:52:50Z)
Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文参考訳（メタデータ） (2024-03-15T02:04:35Z)
Factoring Expertise, Workload, and Turnover into Code Review Recommendation [4.492444446637857]
コードレビューが知識を自然に広めることで、ファイルのターンオーバーのリスクが軽減されることを示す。我々は、レビュー中の専門知識のレベルへの影響を理解するために、新しいレコメンデーターを開発する。レビュー中に専門知識をグローバルに増加させ、+3%、ワークロードの集中度を12%減らし、ファイルのリスクを28%減らすことができます。
論文参考訳（メタデータ） (2023-12-28T18:58:06Z)
Selecting Learnable Training Samples is All DETRs Need in Crowded Pedestrian Detection [72.97320260601347]
混雑した歩行者検出では, サンプル選択法が不適切であるため, DETRの性能は相変わらず不満足である。制約誘導ラベル割り当てスキーム(CGLA)からなる群集歩行者のサンプル選択を提案する。実験の結果,提案したSSCPは推論のオーバーヘッドを発生させることなく,ベースラインを効果的に改善することがわかった。
論文参考訳（メタデータ） (2023-05-18T08:28:01Z)
Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文参考訳（メタデータ） (2022-12-14T18:08:42Z)
Using Large-scale Heterogeneous Graph Representation Learning for Code Review Recommendations [7.260832843615661]
我々は、レビュアーレコメンデーションのための新しいアプローチであるCoRALを提示する。私たちは、リッチなエンティティセットから構築された社会技術的グラフを使用します。我々は,コラルがレビュアー選択のマニュアル履歴を極めてうまくモデル化できることを示した。
論文参考訳（メタデータ） (2022-02-04T20:58:54Z)
Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-02T19:41:47Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Manual Evaluation Matters: Reviewing Test Protocols of Distantly Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文参考訳（メタデータ） (2021-05-20T06:55:40Z)
Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文参考訳（メタデータ） (2021-01-30T07:16:53Z)
Prior and Prejudice: The Novice Reviewers' Bias against Resubmissions in Conference Peer Review [35.24369486197371]
現代の機械学習とコンピュータサイエンスのカンファレンスは、ピアレビューの品質に挑戦する応募の数が急増している。いくつかのカンファレンスは、著者が論文の以前の提出履歴を宣言するよう促したり、要求したりし始めた。本研究は、レビュー対象の提出が以前、類似の会場で拒否されたという知識から生じる偏見について検討する。
論文参考訳（メタデータ） (2020-11-30T09:35:37Z)
ReviewRobot: Explainable Paper Review Generation based on Knowledge Synthesis [62.76038841302741]
レビュースコアを自動的に割り当てて,新規性や意味のある比較など,複数のカテゴリのコメントを書くための,新しいReviewRobotを構築した。実験の結果,レビュースコア予測器の精度は71.4%-100%であった。ドメインの専門家による人間による評価は、ReviewRobotが生成したコメントの41.7%-70.5%が有効で建設的であり、その20%は人間が書いたものよりも優れていることを示している。
論文参考訳（メタデータ） (2020-10-13T02:17:58Z)
How Useful are Reviews for Recommendation? A Critical Review and Potential Improvements [8.471274313213092]
本稿では,レビューテキストを用いてレコメンデーションシステムの改善を目指す,新たな作業体系について検討する。実験条件やデータ前処理に変化はあるものの, 論文間で結果がコピーされていることから, 報告結果にいくつかの相違点がみられた。さらなる調査では、リコメンデーションのためのユーザレビューの"重要"に関して、はるかに大きな問題に関する議論が求められている。
論文参考訳（メタデータ） (2020-05-25T16:30:05Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)
Code Review in the Classroom [57.300604527924015]
教室設定の若い開発者は、コードレビュープロセスの潜在的に有利で問題のある領域の明確な図を提供している。彼らのフィードバックは、プロセスはプロセスを改善するためにいくつかのポイントで十分に受け入れられていることを示唆している。本論文は,教室でコードレビューを行うためのガイドラインとして利用することができる。
論文参考訳（メタデータ） (2020-04-19T06:07:45Z)
Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。 58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文参考訳（メタデータ） (2020-02-10T05:23:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。