論文の概要: AI-Assisted Fixes to Code Review Comments at Scale
- arxiv url: http://arxiv.org/abs/2507.13499v1
- Date: Thu, 17 Jul 2025 19:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.119923
- Title: AI-Assisted Fixes to Code Review Comments at Scale
- Title(参考訳): AI支援による大規模コードレビューコメントの修正
- Authors: Chandra Maddila, Negar Ghorbani, James Saindon, Parth Thakkar, Vijayaraghavan Murali, Rui Abreu, Jingyue Shen, Brian Zhou, Nachiappan Nagappan, Peter C. Rigby,
- Abstract要約: Metaには毎週10万のコードレビューコメントがある。
私たちはMetamate for Code Review (MetaMateCR)を開発した。
- 参考スコア(独自算出の注目度): 13.52149145689506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aim. There are 10s of thousands of code review comments each week at Meta. We developed Metamate for Code Review (MetaMateCR) that provides AI-assisted fixes for reviewer comments in production at scale. Method. We developed an internal benchmark of 64k <review comment, patch> data points to fine-tune Llama models. Once our models achieve reasonable offline results, we roll them into production. To ensure that our AI-assisted fixes do not negatively impact the time it takes to do code reviews, we conduct randomized controlled safety trials as well as full production experiments. Offline Results. As a baseline, we compare GPT-4o to our small and large Llama models. In offline results, our LargeLSFT model creates an exact match patch 68% of the time outperforming GPT-4o by 9 percentage points (pp). The internal models also use more modern Hack functions when compared to the PHP functions suggested by GPT-4o. Safety Trial. When we roll MetaMateCR into production in a safety trial that compares no AI patches with AI patch suggestions, we see a large regression with reviewers taking over 5% longer to conduct reviews. After investigation, we modify the UX to only show authors the AI patches, and see no regressions in the time for reviews. Production. When we roll LargeLSFT into production, we see an ActionableToApplied rate of 19.7%, which is a 9.2pp improvement over GPT-4o. Our results illustrate the importance of safety trials in ensuring that AI does not inadvertently slow down engineers, and a successful review comment to AI patch product running at scale.
- Abstract(参考訳): エイム。
Metaには毎週10万のコードレビューコメントがある。
私たちはMetamate for Code Review (MetaMateCR)を開発した。
方法。
我々は64k <review comment, patch> のデータポイントを微調整したLlamaモデルの内部ベンチマークを開発した。
モデルが適切なオフライン結果を得たら、本番環境に投入します。
AIによる修正がコードレビューに要する時間に悪影響を及ぼさないよう、ランダム化制御された安全試験と完全な生産実験を実施しています。
オフラインの結果。
ベースラインとして,GPT-4oとLlamaモデルを比較した。
オフラインでは,我々のLargeLSFTモデルでは,GPT-4oを9ポイント(pp。
内部モデルは、GPT-4oによって提案されるPHP関数と比較して、より現代的なHack関数を使用する。
安全試験。
MetaMateCRを製品にロールアウトすると、AIパッチとAIパッチの提案を比較しない安全試験が行われます。
調査後、AIパッチのみを表示するためにUXを変更しました。
生産。
LargeLSFTを製品化すると、ActionableToAppliedレートが19.7%となり、GPT-4oよりも9.2pp向上した。
我々の結果は、AIが必然的にエンジニアを減速させないことを保証するための安全試験の重要性と、大規模に動作するAIパッチ製品に対するレビューコメントが成功していることを示している。
関連論文リスト
- Agentic Program Repair from Test Failures at Scale: A Neuro-symbolic approach with static analysis and test execution feedback [11.070932612938154]
我々は、さまざまなソフトウェア製品にまたがる大規模なテスト失敗に基づいて、ソースコードを修正するエンジニアリングエージェントを開発した。
静的解析とテストの失敗を通じてエージェントにフィードバックを提供し、ソリューションを洗練できるようにします。
3ヶ月の間に、生成された修正の80%がレビューされ、そのうち31.5%が着陸した。
論文 参考訳(メタデータ) (2025-07-24T19:12:32Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Evaluating Large Language Models for Code Review [2.0261749670612637]
GPT4oとGemini 2.0 Flashを492 AIでテストしました。
GPT4o と Gemini 2.0 Flash はそれぞれ68.50% と63.89% のコード正当性を正しく分類し、67.83% と54.26% のコード正当性を修正した。
論文 参考訳(メタデータ) (2025-05-26T16:47:29Z) - AI-Mediated Code Comment Improvement [3.4849829766701323]
本稿では,Large Language Model (LLM) を用いて,既存のコードコメントを品質軸に沿って書き直す手順を提案する。
GPT-4oを用いて処理を行い、その結果を社内で実行可能なより小さなモデルに分解する。
提案手法が品質軸に沿ったコードコメントをどのように改善するかを評価する。
論文 参考訳(メタデータ) (2025-05-13T23:31:32Z) - LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。
大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。
命令ベースのデータセットの微調整により、パフォーマンスが10~20ポイント向上する。
論文 参考訳(メタデータ) (2025-04-15T10:07:33Z) - How Well Can AI Build SD Models? [0.0]
本稿では,AI生成因果写像の評価のための2つの指標について紹介する。
我々は,11種類のLDMを,因果翻訳の能力とユーザの指示に適合する能力で試験した。
論文 参考訳(メタデータ) (2025-03-19T14:48:47Z) - Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。
10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。
これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-16T19:11:15Z) - Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and Bystanders [6.301093158004018]
文献でよく使われている特徴に基づいた新しいレコメンデーターを開発した。
2022年春の82k差分におけるA/Bテストでは、新しい推奨値の方が正確で、レイテンシが低かった。
2023年春に12.5kの著者を対象にA/B試験を行い,推奨個人を指定した場合の差分処理に要する時間を大幅に削減した。
論文 参考訳(メタデータ) (2023-12-28T17:55:13Z) - AI Control: Improving Safety Despite Intentional Subversion [1.5267291767316298]
我々は,意図的な転倒に対して堅牢な安全手法のパイプラインを開発し,評価する。
バックドアを含むソリューションを決して提出しないプロトコルについて検討する。
論文 参考訳(メタデータ) (2023-12-12T02:34:06Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。
自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。
我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文 参考訳(メタデータ) (2023-06-16T15:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。