論文の概要: Trust-Calibrated Code Review: A Participatory Design Study of Review Workflows for LLM-Generated Multi-File Changes
- arxiv url: http://arxiv.org/abs/2606.01969v1
- Date: Mon, 01 Jun 2026 09:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.696811
- Title: Trust-Calibrated Code Review: A Participatory Design Study of Review Workflows for LLM-Generated Multi-File Changes
- Title(参考訳): Trust-Calibrated Code Review: LLM生成マルチファイル変更のためのレビューワークフローの参加型設計研究
- Authors: Lo Gullstrand Heander, Agnia Sergeyuk, Ilya Zakharov, Emma Söderberg, Nikita Mukhortov,
- Abstract要約: LLMをベースとしたエージェントが生成する複数ファイルの変更をレビューすることは、拡散問題というよりも、信頼校正問題である。
調査の結果,7つの設計構造をサポートする3段階のレビューワークフローが得られた。
これらの結果は, 将来のツール開発において, 設計の方向性が肯定的であることを示唆している。
- 参考スコア(独自算出の注目度): 1.8912594675203016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Developers increasingly review multi-file code changes generated by LLM-based agents, yet no validated end-to-end workflow or IDE tooling design exists for this scenario. Aims: We investigate (RQ1) the challenges developers face when reviewing LLM-generated multi-file changes and (RQ2) how developers envision effective workflows for this task. Method: In collaboration with JetBrains, we conducted a participatory design study structured using the double-diamond design process with Discover, Define, Develop, and Deliver phases. Industry practitioners participated in the Discover phase (N=17); seven of these returned for the Develop phase. The Define phase was an author-led synthesis. The Deliver phase produced a conceptual design and a high-fidelity semi-interactive prototype evaluated through a follow-up survey with N=43 practitioners. Results: Participants identified trust-calibration as the central challenge. The study yielded a three-level review workflow (overview, file-analysis, code snippet review) supported by seven design constructs (chunk, risk-per-line, risk-per-file, judge, walk-through, zooming in/out, and security cage). In the validation survey, all three workflow levels scored above the neutral midpoint (means 3.50--3.91 on a five-point scale). Of the respondents, 63% expected reduced overall review effort, and 52% reduced trust-assessment effort, relative to their current tools. These findings suggest that the design constructs indicate a positive direction for future tool development. Conclusions: Reviewing LLM-generated multi-file changes is a trust-calibration problem rather than a diffing problem. The three-level workflow and the seven constructs we report give tool designers a conceptual framework for building AI-ready code review tools that surface risk and confidence signals at the granularity at which developers allocate attention.
- Abstract(参考訳): 背景: LLMベースのエージェントによって生成されるマルチファイルコードの変更をレビューする一方で、このシナリオには検証済みのエンドツーエンドワークフローやIDEツール設計は存在しない。
Aims: LLMの生成するマルチファイルの変更をレビューする際に開発者が直面する課題(RQ1)と、開発者がこのタスクに効果的なワークフローをどのように想定するかを調査する(RQ2)。
方法:JetBrainsと共同で、Discover, Define, Develop, Deliver フェーズを備えたダブルダイアモンド設計プロセスを用いて、参加型設計研究を行った。
業界の実践者はDiscoverフェーズ(N=17)に参加し、うち7人はDevelopフェーズに戻ってきた。
デフィン相は著者主導の合成である。
Deliver相は、N=43の実践者による追跡調査により、概念設計と高忠実な半インタラクティブプロトタイプを作成した。
結果: 参加者は信頼校正を中心的課題とみなした。
調査では,7つの設計構成(チャンク,リスク/ライン,リスク/ファイル,判断,ウォークスルー,ズームイン/アウト,セキュリティケージ)をサポートする3段階のレビューワークフロー(オーバービュー,ファイル分析,コードスニペットレビュー)が得られた。
検証調査では、3つのワークフローレベルが中性中間点以上(平均5点スケールで3.50~3.91)。
回答者の63%は、全体的なレビューの労力を減らし、52%は、現在のツールと比較して信頼評価の労力を減らした。
これらの結果は, 将来のツール開発において, 設計の方向性が肯定的であることを示唆している。
結論: LLMの生成する複数ファイルの変更をレビューすることは、差分問題というよりも、信頼校正問題である。
3段階のワークフローと、私たちが報告した7つの構成は、AI対応のコードレビューツールを構築するための概念的なフレームワークを提供します。
関連論文リスト
- From Helpful to Trustworthy: LLM Agents for Pair Programming [0.0]
LLMベースのコーディングエージェントは、コード、テスト、ドキュメントの生成にますます使われています。
それでも、彼らのアウトプットは、開発者意図と正しく一致せず、進化するプロジェクトにおけるレビューの限られた証拠を提供することができる。
本研究では、意図を外部化し、反復検証に開発ツールを使用するマルチエージェントLLMペアプログラミングの体系的研究を提案する。
論文 参考訳(メタデータ) (2026-04-11T17:39:57Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - Understanding Specification-Driven Code Generation with LLMs: An Empirical Study Design [2.687678248171195]
大規模言語モデル(LLM)は、ますますソフトウェア開発に統合されているが、構造化された仕様駆動プロセスにおけるそれらの振る舞いは、いまだに理解されていない。
本稿では,LLM支援コード生成のためのヒューマン・イン・ザ・ループ・ワークフローを実現するVisual Studio Code拡張であるCURRANTEを用いた実証的研究設計を提案する。
本研究の目的は,LLM生成コードの品質と力学に人間による介入がどう影響するかを解析することである。
論文 参考訳(メタデータ) (2026-01-07T12:46:57Z) - Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Engineering [0.0]
レガシーシステム、不完全なドキュメンテーション、断片化されたアーキテクチャ知識を含むブラウンフィールドのエンジニアリング作業は、大きな言語モデル(LLM)を効果的に活用するためにユニークな課題を提起する。
本稿では、役割分離型プロンプト戦略と、ブラウンフィールドシステムのあいまいさをナビゲートするためのベストプラクティスを組み合わせた、規律付きLLM支援ワークフローであるDiscover-Define-Deliver(D3)フレームワークを紹介する。
回答者は、明確さ、品質、ドキュメント、認知的負荷の改善と、自己見積の生産性の向上を報告した。
論文 参考訳(メタデータ) (2025-12-01T00:26:41Z) - Evaluating Software Process Models for Multi-Agent Class-Level Code Generation [5.545076518491288]
大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
本研究では,クラスレベルのコード生成のためのプロセス構造とロール形状のマルチエージェント特殊化について検討する。
論文 参考訳(メタデータ) (2025-11-12T22:53:12Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents [64.1759086221016]
ワークフロー誘導計画の最初のベンチマークであるFlowBenchを紹介します。
FlowBenchは6つのドメインから51のシナリオをカバーしている。
以上の結果から,現在のLLMエージェントは良好な計画を立てるためにかなりの改善が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T06:13:00Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。