Fugu-MT 論文翻訳(概要): Towards Practical Defect-Focused Automated Code Review

論文の概要: Towards Practical Defect-Focused Automated Code Review

arxiv url: http://arxiv.org/abs/2505.17928v2
Date: Wed, 28 May 2025 09:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 15:04:28.074419
Title: Towards Practical Defect-Focused Automated Code Review
Title（参考訳）: 欠陥検出自動化コードレビューの実践に向けて
Authors: Junyi Lu, Lili Jiang, Xiaojia Li, Jianbing Fang, Fengjun Zhang, Li Yang, Chun Zuo,
Abstract要約: オンラインレコメンデーションサービスの中で、業界レベルのC++を分析しながら、完全な自動化パイプラインを調査します。 1)関連コンテキストの取得,2)キーインクルージョンの改善,3)偽アラーム率(FAR)の低減,4)人間のバグスライシングの統合。提案手法は, 既往の断層記録からの実世界のマージ要求に基づいて検証され, 従来のLLMよりも2倍, 以前のベースラインより10倍向上した。
参考スコア（独自算出の注目度）: 8.370750734081088
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The complexity of code reviews has driven efforts to automate review comments, but prior approaches oversimplify this task by treating it as snippet-level code-to-text generation and relying on text similarity metrics like BLEU for evaluation. These methods overlook repository context, real-world merge request evaluation, and defect detection, limiting their practicality. To address these issues, we explore the full automation pipeline within the online recommendation service of a company with nearly 400 million daily active users, analyzing industry-grade C++ codebases comprising hundreds of thousands of lines of code. We identify four key challenges: 1) capturing relevant context, 2) improving key bug inclusion (KBI), 3) reducing false alarm rates (FAR), and 4) integrating human workflows. To tackle these, we propose 1) code slicing algorithms for context extraction, 2) a multi-role LLM framework for KBI, 3) a filtering mechanism for FAR reduction, and 4) a novel prompt design for better human interaction. Our approach, validated on real-world merge requests from historical fault reports, achieves a 2x improvement over standard LLMs and a 10x gain over previous baselines. While the presented results focus on C++, the underlying framework design leverages language-agnostic principles (e.g., AST-based analysis), suggesting potential for broader applicability.
Abstract（参考訳）: コードレビューの複雑さにより、レビューコメントの自動化が試みられたが、以前のアプローチでは、これをスニペットレベルのコード・トゥ・テキスト生成として扱い、BLEUのようなテキスト類似度メトリクスに頼って評価することで、このタスクを単純化していた。これらの手法は,リポジトリのコンテキスト,実世界のマージ要求評価,欠陥検出を概観し,実用性を制限する。これらの問題に対処するために、毎日4億人近いアクティブユーザを持つ企業のオンラインレコメンデーションサービスにおける完全な自動化パイプラインを調査し、数十万行のコードからなる業界レベルのC++コードベースを分析します。私たちは4つの重要な課題を特定します。 1)関連状況の把握。 2)キーバグインクルージョン(KBI)の改善。 3)誤報率(FAR)の低減、及び 4)人間のワークフローの統合。これらの課題に対処するために,我々は提案する 1)文脈抽出のためのコードスライシングアルゴリズム 2)KBI用マルチロールLCMフレームワーク 3)FAR低減のためのフィルタリング機構,及び 4) より優れたヒューマンインタラクションのための新しいプロンプトデザイン。提案手法は, 既往の断層記録からの実世界のマージ要求に基づいて検証され, 従来のLLMよりも2倍, 以前のベースラインより10倍向上した。提案された結果はC++に焦点が当てられているが、基盤となるフレームワーク設計は言語に依存しない原則(例えば、ASTベースの分析)を活用しており、より広範な適用性の可能性を示している。

関連論文リスト

AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文参考訳（メタデータ） (2026-01-27T15:23:14Z)
BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文参考訳（メタデータ） (2025-11-26T06:39:19Z)
Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice [18.222990693059756]
ContextCRBenchは、コードレビューにおける詳細なLCM評価のためのベンチマークである。 153.7Kのイシューとトップレベルのリポジトリからのプルリクエストを収集する。レビューワークフローに沿った3つの評価シナリオをサポートする。
論文参考訳（メタデータ） (2025-11-10T12:06:35Z)
SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。 SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。 SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文参考訳（メタデータ） (2025-11-07T18:01:32Z)
REFINE: Enhancing Program Repair Agents through Context-Aware Patch Refinement [12.995571513415905]
大規模言語モデル(LLM)は、最近、自動プログラム修復(APR)に強い可能性を示している。 LLMは、コードコンテキストの限定的な理解と不完全なテストスイートへの過度な信頼のために、正しい修正を作成するのに苦労することが多い。本稿では,ドラフトパッチを正しいものに体系的に変換する新しいパッチリファインメントフレームワークRefineを提案する。
論文参考訳（メタデータ） (2025-10-04T00:34:32Z)
FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding [11.846768103642583]
FeatBenchは、機能実装に焦点を当てた、バイブコーディングのための新しいベンチマークである。 FeatBenchは、ベンチマークを進化させるための品質と完全に自動化されたパイプラインを保証するために、マルチレベルのフィルタリングパイプライン上に構築されている。我々の評価によると、ビブ符号化パラダイムにおける機能実装は重要な課題であり、最高成功率は29.94%である。
論文参考訳（メタデータ） (2025-09-26T11:47:50Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
Rethinking Code Review Workflows with LLM Assistance: An Empirical Study [2.9593087583214173]
本稿では,LLM支援コードレビューツールの2つのバリエーションを含むフィールド実験と,現在のコードレビュープラクティスの探索的フィールドスタディを組み合わせる。この研究は、頻繁なコンテキスト切り替えやコンテキスト情報の不足など、従来のコードレビューにおける重要な課題を特定している。フィールド実験では,LLM生成レビューを事前に提供し,オンデマンドインタラクションを実現する2つのプロトタイプを開発した。
論文参考訳（メタデータ） (2025-05-22T07:54:07Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。 Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文参考訳（メタデータ） (2025-03-22T23:59:17Z)
CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models [10.108114365564926]
最先端の大規模言語モデル(LLM)は、印象的なコード生成機能を示しているが、実際のソフトウェアエンジニアリングタスクに苦労している。コードレビューのコメントは暗黙的であり、曖昧で、口語であり、モデルがコードと人間の意図の両方を理解する必要がある。この課題は、大きな言語モデルが技術的コンテキストと会話的コンテキストの両方を橋渡しする能力を評価することである。
論文参考訳（メタデータ） (2025-03-20T14:07:31Z)
Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文参考訳（メタデータ） (2024-11-15T12:01:38Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文参考訳（メタデータ） (2024-04-10T02:46:08Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文参考訳（メタデータ） (2021-05-27T15:37:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。