論文の概要: Rethinking Code Review Workflows with LLM Assistance: An Empirical Study
- arxiv url: http://arxiv.org/abs/2505.16339v1
- Date: Thu, 22 May 2025 07:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.129564
- Title: Rethinking Code Review Workflows with LLM Assistance: An Empirical Study
- Title(参考訳): LLMアシストによるコードレビューワークフローの再考 - 実証的研究
- Authors: Fannar Steinn Aðalsteinsson, Björn Borgar Magnússon, Mislav Milicevic, Adam Nirving Davidsson, Chih-Hong Cheng,
- Abstract要約: 本稿では,LLM支援コードレビューツールの2つのバリエーションを含むフィールド実験と,現在のコードレビュープラクティスの探索的フィールドスタディを組み合わせる。
この研究は、頻繁なコンテキスト切り替えやコンテキスト情報の不足など、従来のコードレビューにおける重要な課題を特定している。
フィールド実験では,LLM生成レビューを事前に提供し,オンデマンドインタラクションを実現する2つのプロトタイプを開発した。
- 参考スコア(独自算出の注目度): 2.9593087583214173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code reviews are a critical yet time-consuming aspect of modern software development, increasingly challenged by growing system complexity and the demand for faster delivery. This paper presents a study conducted at WirelessCar Sweden AB, combining an exploratory field study of current code review practices with a field experiment involving two variations of an LLM-assisted code review tool. The field study identifies key challenges in traditional code reviews, including frequent context switching, insufficient contextual information, and highlights both opportunities (e.g., automatic summarization of complex pull requests) and concerns (e.g., false positives and trust issues) in using LLMs. In the field experiment, we developed two prototype variations: one offering LLM-generated reviews upfront and the other enabling on-demand interaction. Both utilize a semantic search pipeline based on retrieval-augmented generation to assemble relevant contextual information for the review, thereby tackling the uncovered challenges. Developers evaluated both variations in real-world settings: AI-led reviews are overall more preferred, while still being conditional on the reviewers' familiarity with the code base, as well as on the severity of the pull request.
- Abstract(参考訳): コードレビューは、現代のソフトウェア開発において、批判的だが時間を要する側面であり、システムの複雑さの増加とより迅速なデリバリの要求によって、ますます困難になってきている。
本稿では,現在のコードレビュープラクティスの探索的フィールドスタディと,LLM支援コードレビューツールの2つのバリエーションを含むフィールド実験を組み合わせることを目的として,スウェーデンABで実施した研究について述べる。
フィールドスタディでは、頻繁なコンテキスト切り替え、コンテキスト情報の不足など、従来のコードレビューにおける重要な課題を特定し、LCMを使用する際の可能性(複雑なプルリクエストの自動要約など)と関心(偽陽性や信頼の問題など)の両方を強調している。
フィールド実験では,LLM生成レビューを事前に提供し,オンデマンドインタラクションを実現する2つのプロトタイプを開発した。
どちらも、検索拡張生成に基づくセマンティック検索パイプラインを使用して、レビューに関連するコンテキスト情報を収集し、未発見の課題に取り組む。
AI主導のレビューは全体的に好まれる一方で、レビュアーがコードベースに精通していること、プルリクエストの重大さについても条件付きである。
関連論文リスト
- Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - Rubric Is All You Need: Enhancing LLM-based Code Evaluation With Question-Specific Rubrics [1.3707925738322797]
LLMに基づくコード評価に注力し、既存のギャップを埋めようとしている。
本稿では,問題文に適合した疑問特化ルーブを用いたマルチエージェントな新しい手法を提案する。
包括的分析により,問題固有のルーリックは,学習環境におけるコードの論理的評価を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-03-31T11:59:43Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - HumanEvalComm: Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文 参考訳(メタデータ) (2024-05-31T22:06:18Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Code Reviewer Recommendation Based on a Hypergraph with Multiplex
Relationships [30.74556500021384]
多重関係を持つハイパーグラフを利用する新しいコードレビュアレコメンデーション手法であるMIRRecを提案する。
MIRRecは、プルリクエストと開発者の間で、学位なしのハイパーエッジを使用して、従来のペアワイズ接続を超える高次相関をエンコードする。
MIRRecの有効性を検証するために、GitHubにホストされている10の人気のあるオープンソースプロジェクトからの48,374のプルリクエストからなるデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-01-19T15:25:14Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。