Fugu-MT 論文翻訳(概要): Orchestrating Human-AI Software Delivery: A Retrospective Longitudinal Field Study of Three Software Modernization Programs

論文の概要: Orchestrating Human-AI Software Delivery: A Retrospective Longitudinal Field Study of Three Software Modernization Programs

arxiv url: http://arxiv.org/abs/2603.20028v1
Date: Fri, 20 Mar 2026 15:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:39.199905
Title: Orchestrating Human-AI Software Delivery: A Retrospective Longitudinal Field Study of Three Software Modernization Programs
Title（参考訳）: ヒューマンAIソフトウェアデリバリのオーケストレーション: 3つのソフトウェアモダナイゼーションプログラムの振り返りの縦断的研究
Authors: Maximiliano Armesto, Christophe Kolb,
Abstract要約: 我々は,4段階にわたる人間とAIエージェントを協調する産業用プラットフォームであるChironについて,縦断調査を行った。この研究は、3つの実際のソフトウェアモダナイゼーションプログラムをカバーしている。バンキングマイグレーション(30k LOC)、大規模な会計モダナイゼーション(400k LOC)、.NET/Angular住宅ローンのモダナイゼーション(30k LOC)である。このベンチマークは、観察された結果(ステージ期間、タスクボリューム、検証ステージの問題、最初のリリースカバレッジ)をモデル化された結果から分離する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Evidence on AI in software engineering still leans heavily toward individual task completion, while evidence on team-level delivery remains scarce. We report a retrospective longitudinal field study of Chiron, an industrial platform that coordinates humans and AI agents across four delivery stages: analysis, planning, implementation, and validation. The study covers three real software modernization programs -- a COBOL banking migration (~30k LOC), a large accounting modernization (~400k LOC), and a .NET/Angular mortgage modernization (~30k LOC) -- observed across five delivery configurations: a traditional baseline and four successive platform versions (V1--V4). The benchmark separates observed outcomes (stage durations, task volumes, validation-stage issues, first-release coverage) from modeled outcomes (person-days and senior-equivalent effort under explicit staffing scenarios). Under baseline staffing assumptions, portfolio totals move from 36.0 to 9.3 summed project-weeks; modeled raw effort falls from 1080.0 to 232.5 person-days; modeled senior-equivalent effort falls from 1080.0 to 139.5 SEE-days; validation-stage issue load falls from 8.03 to 2.09 issues per 100 tasks; and first-release coverage rises from 77.0% to 90.5%. V3 and V4 add acceptance-criteria validation, repository-native review, and hybrid human-agent execution, simultaneously improving speed, coverage, and issue load. The evidence supports a central thesis: the largest gains appear when AI is embedded in an orchestrated workflow rather than deployed as an isolated coding assistant.
Abstract（参考訳）: ソフトウェアエンジニアリングにおけるAIのエビデンスはまだ個々のタスク完了に大きく依存しているが、チームレベルのデリバリに関するエビデンスはまだ少ない。分析,計画,実施,検証の4段階にわたって,人間とAIエージェントを協調する産業用プラットフォームであるChironについて,縦断的研究を行った。この研究は、従来のベースラインと4つの連続するプラットフォームバージョン(V1-V4)の5つのデリバリ構成で観察された、COBOLバンキングマイグレーション(~30k LOC)、大規模な会計モダナイゼーション(~400k LOC)、.NET/Angular住宅ローンのモダナイゼーション(~30k LOC)の3つの実際のソフトウェアモダナイゼーションプログラムをカバーする。このベンチマークは、観察された結果(ステージ期間、タスクボリューム、検証ステージの問題、最初のリリースカバレッジ)とモデル化された結果(日々の作業と、明確なスタッフのシナリオの下での上級レベルの作業)を分離する。ベースラインのスタッフの仮定では、ポートフォリオの総数はプロジェクトウィークの総数36.0から9.3に、モデル化された生作業は1080.0から232.5に、モデル化された上級作業は1080.0から139.5に、検証段階の課題負荷は100タスクあたり8.03から2.09に、第1リリースのカバレッジは77.0%から90.5%に減少する。 V3とV4は、受け入れ基準検証、リポジトリネイティブレビュー、ハイブリッドなヒューマンエージェント実行を追加し、スピード、カバレッジ、発行負荷を同時に改善する。 AIが独立したコーディングアシスタントとしてデプロイされるのではなく、オーケストレーションされたワークフローに埋め込まれた場合、最大の利益が現れる。

関連論文リスト

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development [6.072381417546439]
既存のベンチマークは、スクラッチから動くアプリケーションを構築するための完全な"ゼロ・ツー・ワン"プロセスではなく、独立したタスクを計測します。 Vibe Code Benchは、ブラウザベースのサブステップが964である100のWebアプリケーション仕様のベンチマークである。提案するコントリビューションには,(1)エンドツーエンドWebアプリケーション開発のための新しいベンチマークデータセットとブラウザベースの評価パイプライン,(2)コスト,レイテンシ,エラー解析を備えた16のフロンティアモデルの包括的評価,(3)クロスモデルとヒューマンアノテーションの両方による評価器アライメントプロトコルなどが含まれている。
論文参考訳（メタデータ） (2026-03-04T21:00:33Z)
CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments [1.6153514666902042]
実際の組織的な作業には、インターリーブ、依存関係、優先順位付けを伴って、多くの並行した長期タスクを管理する必要があります。マルチ水平タスク環境(MHTEs: Multi-Horizon Task Environments: MHTEs): 数十のインターリーブタスクでコヒーレントな実行を必要とする問題クラス。負荷が25%から100%になるにつれて、ベースラインCUAが16.7%から8.7%に低下する4つの障害モードを特定します。マルチ水平ゴールアライメントのための階層的計画を通じて,これらの障害に対処するアーキテクチャに依存しないフレームワークであるCorpGenを提案する。
論文参考訳（メタデータ） (2026-02-15T16:54:34Z)
Comprehensive Evaluation of Large Language Models on Software Engineering Tasks: A Multi-Task Benchmark [0.0]
大規模言語モデル(LLM)は、ソフトウェア工学において顕著な能力を示している。本稿では,5つのソフトウェアエンジニアリングタスクにまたがる11の最先端LCMのマルチタスク評価について述べる。
論文参考訳（メタデータ） (2026-02-06T03:30:19Z)
CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability [50.57373283154859]
CVE-Factoryは、脆弱性タスクを自動変換するエキスパートレベルの品質を実現するための、最初のマルチエージェントフレームワークである。最新の現実的な脆弱性についても評価され、66.2%の成功が証明されている。コードセキュリティにおけるエージェントタスクの大規模スケーリングとして,1000以上の実行可能なトレーニング環境を合成する。
論文参考訳（メタデータ） (2026-02-03T02:27:16Z)
A Pragmatic VLA Foundation Model [66.76609538850478]
我々はLingBot-VLAを開発し、9つの人気のデュアルアームロボット構成から約2万時間のリアルタイムデータを収集した。我々のモデルは競争相手よりも明らかな優位性を実現し、その強靭な性能と広範な一般化性を示している。ロボット学習の分野を前進させるために、コード、ベースモデル、ベンチマークデータへのオープンアクセスを提供する。
論文参考訳（メタデータ） (2026-01-26T17:08:04Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。 FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文参考訳（メタデータ） (2025-10-20T17:52:06Z)
Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。モデル、足場、ベンチマークにまたがる3次元解析を行う。私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文参考訳（メタデータ） (2025-10-13T22:22:28Z)
Intuition to Evidence: Measuring AI's True Impact on Developer Productivity [30.02516976149379]
本稿では,企業規模でのAI支援ソフトウェア開発ツールの総合的実環境評価について述べる。 1年以上にわたり、複数のチームにわたる300人のエンジニアが、コード生成と自動レビュー機能を組み合わせた社内AIプラットフォーム(DeputyDev)を統合した。
論文参考訳（メタデータ） (2025-09-24T02:34:11Z)
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems [2.4241401076864]
HackerRank-ASTRA Benchmarkでは、実際のシナリオを反映したプロジェクトベースのコーディング問題が導入されている。モデル一貫性を32ラン(k = 32)と中央標準偏差で評価する。上位3モデル(o1、o1-preview、Claude-3.5-Sonnet-1022)は75%のスコアを記録した。
論文参考訳（メタデータ） (2025-01-31T23:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。