論文の概要: From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents
- arxiv url: http://arxiv.org/abs/2606.04967v1
- Date: Wed, 03 Jun 2026 14:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.835939
- Title: From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents
- Title(参考訳): PromptからProcessへ:AIソフトウェア開発エージェントをサポートするフレームワークのプロセス分類と比較評価
- Authors: Sanderson Oliveira de Macedo,
- Abstract要約: AI機能をプロセスに変換する運用フレームワークに重点を置いています。
仕様駆動による完全な軽量な開発、エージェント駆動のアジャイル計画、エージェント上のコンテキストエンジニアリング、ワークツリーの分離とレビュー、レガシーシステムからの運用仕様の回復。
私たちの中心的な貢献は、仕様、コンテキスト、役割、実行、バリデーション、ポータビリティという6次元プロセスの分類です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI tools for programming are no longer just autocomplete or chat assistants: they organize themselves as development frameworks, with process, roles, artifacts and verification. Recent surveys map agents and LLMs for software engineering, but a study centered on the operational frameworks that turn these capabilities into process is missing. We ran a directed search of primary sources, with a functional inclusion criterion and traction measurement, and selected six frameworks: GitHub Spec Kit, OpenSpec, BMAD Method, Get Shit Done (GSD), Spec Kitty and Reversa. Each attacks AI development through a different path: spec-driven development in full and lightweight variants, agent-driven agile planning, context engineering over the agent, worktree isolation and review, and recovery of operational specifications from legacy systems. Our central contribution is a six-dimension process taxonomy: specification, context, roles, execution, validation and portability, with a scoring rubric that turns it into a replicable instrument. We apply it to the six frameworks and an out-of-sample case, Spec-Flow. Two results stand out. Among frameworks that already adopt some process there is convergence: the isolated prompt loses centrality, and persistent artifacts, work contracts, traceability and human review become mechanisms that reduce ambiguity and coordinate agents. And no framework strongly covers all six dimensions, exposing a structural trade-off between process depth and portability across agents. We also found recurring risks: drift between specification and code, excessive trust in generated artifacts, fragility of community extensions, platform dependence and a lack of benchmarks for the complete process. We close with a research agenda for empirical evaluation, focused on intermediate-quality metrics, context governance, installation security and reproducibility.
- Abstract(参考訳): プログラミングのためのAIツールはもはや、単なる自動補完やチャットアシスタントではなく、プロセス、役割、アーティファクト、検証を備えた開発フレームワークとして組織化されている。
最近の調査では、ソフトウェアエンジニアリングのためのエージェントとLLMがマップされているが、これらの機能をプロセスに変換する運用フレームワークを中心とした研究は欠落している。
私たちは、機能的なインクルージョン基準とトラクション測定を備えた、一次ソースの直接検索を行い、GitHub Spec Kit、OpenSpec、BMAD Method、Get Shit Done (GSD)、Spec Kitty、Reversaの6つのフレームワークを選択しました。
仕様駆動開発 フルで軽量なバリエーション、エージェント駆動のアジャイル計画、エージェント上のコンテキストエンジニアリング、ワークツリーの分離とレビュー、レガシーシステムからの運用仕様の回復。
私たちの中心的な貢献は、仕様、コンテキスト、役割、実行、バリデーション、ポータビリティという6次元プロセスの分類です。
これを6つのフレームワークとサンプル外ケース、Spec-Flowに適用します。
2つの結果が浮き彫りだ。
分離されたプロンプトは中心性を失い、永続的なアーティファクト、作業契約、トレーサビリティ、ヒューマンレビューは曖昧さとコーディネートを減らすメカニズムとなる。
そして、プロセスの深さとエージェント間のポータビリティの間の構造的なトレードオフを露呈し、6つの次元全てを強くカバーするフレームワークはありません。
仕様とコード間のドリフト、生成されたアーティファクトへの過剰な信頼、コミュニティ拡張の脆弱さ、プラットフォーム依存、完全なプロセスのためのベンチマークの欠如などです。
我々は、中間品質のメトリクス、コンテキストガバナンス、インストールセキュリティ、再現性に焦点を当てた経験的評価に関する研究課題に近づいた。
関連論文リスト
- AI Harness Engineering: A Runtime Substrate for Foundation-Model Software Agents [1.4323566945483497]
ファンデーションモデルは、自動コード生成を変革しましたが、現実的な開発環境では、自律的なソフトウェアエンジニアリングエージェントは信頼できないままです。
本稿では,基盤モデルエージェントがプロジェクトを観察し,それを処理し,フィードバックを受信し,変更が完了したことを確定する,モデルハーネス環境システムを提案する。
このフレームワークは、ファンデーションモデルがパッチを作成できるかどうかから、モデルハーネス環境システムが検証可能な正確さ、属性、メンテナンス可能な変更を生成できるかどうかという、自律的なソフトウェアエンジニアリングの中心的な疑問を再考する。
論文 参考訳(メタデータ) (2026-05-13T11:14:59Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - AI Agent Systems: Architectures, Applications, and Evaluation [4.967019713320407]
AIエージェントは、基礎モデルと推論、計画、メモリ、ツールの使用を組み合わせる。
先行作業は、エージェントコンポーネントにまたがる統一された分類にまとめます。
レイテンシ対精度、自律性対可制御性、能力対信頼性といった重要な設計トレードオフについて論じます。
論文 参考訳(メタデータ) (2026-01-05T02:38:40Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - AI Agentic Programming: A Survey of Techniques, Challenges, and Opportunities [8.086360127362815]
大規模言語モデル(LLM)ベースのコーディングエージェントは、コンパイラ、デバッガ、バージョン管理システムなどのツールを自律的に計画し、実行し、操作する。
従来のコード生成とは異なり、これらのエージェントは目標を分解し、多段階プロセスをコーディネートし、フィードバックに基づいて適応し、ソフトウェア開発のプラクティスを再構築する。
論文 参考訳(メタデータ) (2025-08-15T00:14:31Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - HADA: Human-AI Agent Decision Alignment Architecture [0.0]
HADAはプロトコルとフレームワークのリファレンスアーキテクチャであり、大きな言語モデル(LLM)エージェントとレガシーアルゴリズムの両方を組織的目標と値に一致させる。
技術的および非技術的アクターは、戦略的、戦術的、リアルタイムな地平線を越えて、あらゆる決定をクエリ、ステア、監査、または競合することができる。
論文 参考訳(メタデータ) (2025-06-01T14:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。