論文の概要: Previously on... Automating Code Review
- arxiv url: http://arxiv.org/abs/2508.18003v1
- Date: Mon, 25 Aug 2025 13:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.789727
- Title: Previously on... Automating Code Review
- Title(参考訳): 前回までの...コードレビューの自動化
- Authors: Robert Heumüller, Frank Ortmeier,
- Abstract要約: モダンコードレビュー(MCR)は、ソフトウェアエンジニアリングにおける標準的なプラクティスであるが、かなりの時間とリソース投資を必要とする。
最近の研究は、機械学習(ML)とディープラーニング(DL)を用いたコアレビュータスクの自動化をますます検討している。
本研究は,MCR自動化研究の総合的な分析を初めて行った。
- 参考スコア(独自算出の注目度): 4.096540146408279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Code Review (MCR) is a standard practice in software engineering, yet it demands substantial time and resource investments. Recent research has increasingly explored automating core review tasks using machine learning (ML) and deep learning (DL). As a result, there is substantial variability in task definitions, datasets, and evaluation procedures. This study provides the first comprehensive analysis of MCR automation research, aiming to characterize the field's evolution, formalize learning tasks, highlight methodological challenges, and offer actionable recommendations to guide future research. Focusing on the primary code review tasks, we systematically surveyed 691 publications and identified 24 relevant studies published between May 2015 and April 2024. Each study was analyzed in terms of tasks, models, metrics, baselines, results, validity concerns, and artifact availability. In particular, our analysis reveals significant potential for standardization, including 48 task metric combinations, 22 of which were unique to their original paper, and limited dataset reuse. We highlight challenges and derive concrete recommendations for examples such as the temporal bias threat, which are rarely addressed so far. Our work contributes to a clearer overview of the field, supports the framing of new research, helps to avoid pitfalls, and promotes greater standardization in evaluation practices.
- Abstract(参考訳): モダンコードレビュー(MCR)は、ソフトウェアエンジニアリングにおける標準的なプラクティスであるが、かなりの時間とリソース投資を必要とする。
近年、機械学習(ML)とディープラーニング(DL)を使用して、コアレビュータスクを自動化する研究が増えている。
その結果、タスク定義、データセット、評価手順にかなりのばらつきがある。
本研究は,MCR自動化研究の総合的分析として,分野の進化を特徴付けること,学習タスクの形式化,方法論的課題の強調,今後の研究を導くための行動可能なレコメンデーションの提供を目的としている。
2015年5月から2024年4月までに,コードレビュータスクを中心に691の出版物を体系的に調査し,関連研究24件を特定した。
各研究は、タスク、モデル、メトリクス、ベースライン、結果、妥当性の懸念、アーティファクトの可用性の観点から分析された。
特に,本分析の結果から,48のタスクメトリックの組み合わせ,22のタスクは元々の論文に特有のものであり,データセットの再利用は限定的であった。
課題を強調し、時間的偏見の脅威のような例に対して具体的な勧告を導出します。
我々の研究は、この分野のより明確な概要に寄与し、新しい研究のフレーミングを支援し、落とし穴を回避し、評価プラクティスの標準化を促進する。
関連論文リスト
- A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era [10.935053388447372]
コードレビューは、開発者が欠陥を早期に検出し、コード品質を改善し、知識共有を促進するのに役立つ、現代のソフトウェアエンジニアリングにおける重要なプラクティスである。
大規模言語モデル(LLM)の急速な進歩により、コードレビューの自動化サポートについて研究が進められている。
現在のコードレビューデータセットは散在しており、設計は様々であり、レビュー機能が実際に評価されているかについての限られた洞察を提供する。
論文 参考訳(メタデータ) (2026-02-13T18:19:38Z) - GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文 参考訳(メタデータ) (2026-01-30T17:28:56Z) - Deep Research: A Systematic Survey [118.82795024422722]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。
本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文 参考訳(メタデータ) (2025-11-24T15:28:28Z) - When Models Can't Follow: Testing Instruction Adherence Across 256 LLMs [0.0]
本稿では,20個のプロンプトを慎重に設計し,指示追従の評価を行う合理化評価フレームワークを提案する。
我々は2025年10月14日に行われた大規模な実証的研究を通じて、この枠組みを実証した。
本研究は、一貫した障害モードを明らかにし、特定の課題を呈する特定の命令タイプを特定する。
論文 参考訳(メタデータ) (2025-10-18T16:33:15Z) - SoK: Potentials and Challenges of Large Language Models for Reverse Engineering [5.603029122508333]
リバースエンジニアリング(RE)はソフトウェアセキュリティの中心であり、脆弱性発見やマルウェア分析などのタスクを可能にする。
ディープラーニングの初期の進歩は、特にマルウェア検出と脆弱性分類のために、REの一部を自動化するようになった。
最近では、急速に成長する研究機関が、同様の目的にLarge Language Models (LLMs)を適用している。
論文 参考訳(メタデータ) (2025-09-26T03:26:51Z) - Large Language Models (LLMs) for Requirements Engineering (RE): A Systematic Literature Review [2.0061679654181392]
本研究は,出版動向,RE活動,促進戦略,評価方法など,諸次元の文献を分類する。
研究の多くは、欠陥検出や分類よりも、要件の適用と検証にLLMを使うことに重点を置いている。
問題追跡システム、規制、技術マニュアルなど、他のアーティファクトもますます検討されている。
論文 参考訳(メタデータ) (2025-09-14T21:45:01Z) - When LLM Meets Time Series: Can LLMs Perform Multi-Step Time Series Reasoning and Inference [12.867006554196358]
我々は、時系列AIアシスタントとしてLarge Language Modelsを評価する最初の試みであるTSAIAベンチマークを紹介する。
このベンチマークには、制約認識予測からしきい値校正による異常検出まで、幅広い課題が含まれている。
このベンチマークを適用し、統一評価プロトコルの下で8つの最先端LCMを評価する。
論文 参考訳(メタデータ) (2025-09-01T22:58:57Z) - A Systematic Literature Review on Detecting Software Vulnerabilities with Large Language Models [2.518519330408713]
ソフトウェア工学における大規模言語モデル(LLM)は、ソフトウェア脆弱性検出への関心を喚起している。
この分野の急速な発展は、断片化された研究の風景を生み出した。
この断片化は、最先端技術の明確な概要を得るのを困難にし、研究を有意義に比較し分類する。
論文 参考訳(メタデータ) (2025-07-30T13:17:16Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches [2.687757575672707]
我々は、分類、マッピング、分析を行うための新しい下流タスク分類法を開発した。
主な分類基準は、タスクタイプの変動点を示しながら、共通点を強調することである。
論文 参考訳(メタデータ) (2024-04-14T23:45:23Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - A Survey on Machine Learning Techniques for Source Code Analysis [14.129976741300029]
ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。
そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。
論文 参考訳(メタデータ) (2021-10-18T20:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。