Fugu-MT 論文翻訳(概要): BitsAI-CR: Automated Code Review via LLM in Practice

論文の概要: BitsAI-CR: Automated Code Review via LLM in Practice

arxiv url: http://arxiv.org/abs/2501.15134v1
Date: Sat, 25 Jan 2025 08:39:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.536776
Title: BitsAI-CR: Automated Code Review via LLM in Practice
Title（参考訳）: BitsAI-CR: LLMによるコードレビューの実践
Authors: Tao Sun, Jian Xu, Yuanpeng Li, Zhao Yan, Ge Zhang, Lintao Xie, Lu Geng, Zheng Wang, Yueyan Chen, Qin Lin, Wenbo Duan, Kaixin Sui,
Abstract要約: BitsAI-CRは、2段階のアプローチを通じてコードレビューを強化する革新的なフレームワークである。システムはレビュールールの包括的な分類に基づいて構築され、データフライホイール機構を実装している。実証評価はBitsAI-CRの有効性を示し、レビューコメント生成において75.0%の精度を達成した。
参考スコア（独自算出の注目度）: 16.569842114384233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code review remains a critical yet resource-intensive process in software development, particularly challenging in large-scale industrial environments. While Large Language Models (LLMs) show promise for automating code review, existing solutions face significant limitations in precision and practicality. This paper presents BitsAI-CR, an innovative framework that enhances code review through a two-stage approach combining RuleChecker for initial issue detection and ReviewFilter for precision verification. The system is built upon a comprehensive taxonomy of review rules and implements a data flywheel mechanism that enables continuous performance improvement through structured feedback and evaluation metrics. Our approach introduces an Outdated Rate metric that can reflect developers' actual adoption of review comments, enabling automated evaluation and systematic optimization at scale. Empirical evaluation demonstrates BitsAI-CR's effectiveness, achieving 75.0% precision in review comment generation. For the Go language which has predominant usage at ByteDance, we maintain an Outdated Rate of 26.7%. The system has been successfully deployed at ByteDance, serving over 12,000 Weekly Active Users (WAU). Our work provides valuable insights into the practical application of automated code review and offers a blueprint for organizations seeking to implement automated code reviews at scale.
Abstract（参考訳）: コードレビューは、ソフトウェア開発において重要ながリソース集約的なプロセスであり、特に大規模産業環境では難しい。大規模言語モデル(LLM)はコードレビューの自動化を約束する一方で、既存のソリューションは精度と実用性において重大な制限に直面している。本稿では,初期問題検出のためのRuleCheckerと精度検証のためのReviewFilterを組み合わせた2段階アプローチにより,コードレビューを改善する革新的なフレームワークBitsAI-CRを提案する。このシステムは、レビュールールの包括的な分類に基づいて構築され、構造化されたフィードバックと評価メトリクスによる継続的なパフォーマンス向上を可能にするデータフライホイール機構を実装している。当社のアプローチでは,レビューコメントの実際の採用を反映して,自動評価と大規模システム最適化を可能にする,アウトダッドレートメトリクスを導入しています。実証評価はBitsAI-CRの有効性を示し、レビューコメント生成において75.0%の精度を達成した。 ByteDanceで主に使用されているGo言語では、アウトダデートレートが26.7%を維持しています。このシステムはByteDanceで成功し、12,000人以上のWeekly Active Users (WAU) にサービスを提供している。私たちの研究は、自動コードレビューの実践的応用に関する貴重な洞察を提供し、大規模に自動コードレビューを実装しようとする組織に青写真を提供します。

関連論文リスト

Benchmarking and Studying the LLM-based Code Review [34.93646390349726]
現在のベンチマークでは、きめ細かいコード単位、完全なプロジェクトコンテキストの欠如、不適切な評価指標の使用に重点を置いています。 SWRBenchはPR中心のレビューと完全なプロジェクトコンテキストを提供する新しいベンチマークです。我々の貢献には、SWRBenchベンチマーク、その客観的評価方法、現在のACR機能に関する包括的な研究、効果的な拡張アプローチが含まれる。
論文参考訳（メタデータ） (2025-09-01T14:13:34Z)
Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。 REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文参考訳（メタデータ） (2025-08-04T18:52:01Z)
Automated Code Review Using Large Language Models with Symbolic Reasoning [0.0]
本研究では,記号的推論手法を大規模言語モデルと組み合わせたハイブリッド手法を提案する。提案手法は,自動コードレビューの精度と効率を向上することを示す。
論文参考訳（メタデータ） (2025-07-24T14:50:27Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。この手法は2003年にTREC Question Answering (QA) Trackのために開発された。完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文参考訳（メタデータ） (2025-04-21T12:55:06Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
CodeArena: A Collective Evaluation Platform for LLM Code Generation [46.800918377886184]
CodeArenaは、LLM(Large Language Models)コード生成に適したオンライン評価フレームワークである。鍵となる革新は、総合的な評価メカニズムであり、それは、個々のモデルのスコアを、すべての参加モデルの全体的パフォーマンスに基づいて再分類するものである。 CodeArenaは、提出されたすべてのソリューションとテストケースへのオープンアクセスを保証し、コード評価ワークフローを合理化するための自動化フレンドリなAPIを提供する。
論文参考訳（メタデータ） (2025-03-03T08:31:16Z)
Harnessing Large Language Models for Curated Code Reviews [2.5944208050492183]
コードレビューでは、構造化され、関連するコメントを生成することは、コードの問題を識別し、正確なコード変更を容易にするために不可欠である。既存のコードレビューデータセットは、しばしば騒々しく、未解決であり、AIモデルの学習可能性に制限を課している。本稿では,最大規模の公開コードレビューデータセットの品質向上を目的としたキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-05T18:15:09Z)
Deep Assessment of Code Review Generation Approaches: Beyond Lexical Similarity [27.92468098611616]
コードレビューを評価するための2つの新しいセマンティックベースのアプローチを提案する。最初のアプローチでは、生成されたレビューと参照の両方をディープラーニングモデルを使用してデジタルベクトルに変換する。 2つ目のアプローチは、生成されたレビューとその参照に基づいてプロンプトを生成し、このプロンプトをChatGPTに送信し、生成されたレビューを評価するためにChatGPTを要求する。
論文参考訳（メタデータ） (2025-01-09T11:52:32Z)
Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-10-16T06:06:06Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
Predicting Expert Evaluations in Software Code Reviews [8.012861163935904]
本稿では,その複雑さや主観性から回避されるコードレビューの側面を自動化するアルゴリズムモデルを提案する。手作業によるレビューを置き換える代わりに、私たちのモデルは、レビュアーがより影響力のあるタスクに集中するのに役立つ洞察を追加します。
論文参考訳（メタデータ） (2024-09-23T16:01:52Z)
AI-Assisted Assessment of Coding Practices in Modern Code Review [11.803776132972029]
AutoCommenterは、コーディングのベストプラクティスを学習し、強制するためのエンドツーエンドシステムである。本稿では,AutoCommenterの開発,展開,評価について報告する。
論文参考訳（メタデータ） (2024-05-22T11:57:18Z)
Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文参考訳（メタデータ） (2024-04-10T02:46:08Z)
The Right Prompts for the Job: Repair Code-Review Defects with Large Language Model [15.885824575879763]
自動プログラム修復(APR)技術は、コードレビュー(CR)プロセス中にプログラム欠陥を発見して修復する手作業を減らす可能性がある。しかし、既存のAPRアプローチにまつわる限られた精度とかなりの時間的コストは、産業的な実践において採用を妨げている。近年のLLM(Large Language Models)の進歩により、自然言語やプログラミング言語を理解する能力が向上し、レビューコメントに基づいたパッチの生成が可能になった。
論文参考訳（メタデータ） (2023-12-29T06:12:15Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-29T14:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。