論文の概要: Previously on... Automating Code Review
- arxiv url: http://arxiv.org/abs/2508.18003v1
- Date: Mon, 25 Aug 2025 13:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.789727
- Title: Previously on... Automating Code Review
- Title(参考訳): 前回までの...コードレビューの自動化
- Authors: Robert Heumüller, Frank Ortmeier,
- Abstract要約: モダンコードレビュー(MCR)は、ソフトウェアエンジニアリングにおける標準的なプラクティスであるが、かなりの時間とリソース投資を必要とする。
最近の研究は、機械学習(ML)とディープラーニング(DL)を用いたコアレビュータスクの自動化をますます検討している。
本研究は,MCR自動化研究の総合的な分析を初めて行った。
- 参考スコア(独自算出の注目度): 4.096540146408279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Code Review (MCR) is a standard practice in software engineering, yet it demands substantial time and resource investments. Recent research has increasingly explored automating core review tasks using machine learning (ML) and deep learning (DL). As a result, there is substantial variability in task definitions, datasets, and evaluation procedures. This study provides the first comprehensive analysis of MCR automation research, aiming to characterize the field's evolution, formalize learning tasks, highlight methodological challenges, and offer actionable recommendations to guide future research. Focusing on the primary code review tasks, we systematically surveyed 691 publications and identified 24 relevant studies published between May 2015 and April 2024. Each study was analyzed in terms of tasks, models, metrics, baselines, results, validity concerns, and artifact availability. In particular, our analysis reveals significant potential for standardization, including 48 task metric combinations, 22 of which were unique to their original paper, and limited dataset reuse. We highlight challenges and derive concrete recommendations for examples such as the temporal bias threat, which are rarely addressed so far. Our work contributes to a clearer overview of the field, supports the framing of new research, helps to avoid pitfalls, and promotes greater standardization in evaluation practices.
- Abstract(参考訳): モダンコードレビュー(MCR)は、ソフトウェアエンジニアリングにおける標準的なプラクティスであるが、かなりの時間とリソース投資を必要とする。
近年、機械学習(ML)とディープラーニング(DL)を使用して、コアレビュータスクを自動化する研究が増えている。
その結果、タスク定義、データセット、評価手順にかなりのばらつきがある。
本研究は,MCR自動化研究の総合的分析として,分野の進化を特徴付けること,学習タスクの形式化,方法論的課題の強調,今後の研究を導くための行動可能なレコメンデーションの提供を目的としている。
2015年5月から2024年4月までに,コードレビュータスクを中心に691の出版物を体系的に調査し,関連研究24件を特定した。
各研究は、タスク、モデル、メトリクス、ベースライン、結果、妥当性の懸念、アーティファクトの可用性の観点から分析された。
特に,本分析の結果から,48のタスクメトリックの組み合わせ,22のタスクは元々の論文に特有のものであり,データセットの再利用は限定的であった。
課題を強調し、時間的偏見の脅威のような例に対して具体的な勧告を導出します。
我々の研究は、この分野のより明確な概要に寄与し、新しい研究のフレーミングを支援し、落とし穴を回避し、評価プラクティスの標準化を促進する。
関連論文リスト
- A Systematic Literature Review on Detecting Software Vulnerabilities with Large Language Models [2.518519330408713]
ソフトウェア工学における大規模言語モデル(LLM)は、ソフトウェア脆弱性検出への関心を喚起している。
この分野の急速な発展は、断片化された研究の風景を生み出した。
この断片化は、最先端技術の明確な概要を得るのを困難にし、研究を有意義に比較し分類する。
論文 参考訳(メタデータ) (2025-07-30T13:17:16Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches [2.687757575672707]
我々は、分類、マッピング、分析を行うための新しい下流タスク分類法を開発した。
主な分類基準は、タスクタイプの変動点を示しながら、共通点を強調することである。
論文 参考訳(メタデータ) (2024-04-14T23:45:23Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - A Survey on Machine Learning Techniques for Source Code Analysis [14.129976741300029]
ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。
そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。
論文 参考訳(メタデータ) (2021-10-18T20:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。