Fugu-MT 論文翻訳(概要): Agile V: A Compliance-Ready Framework for AI-Augmented Engineering -- From Concept to Audit-Ready Delivery

論文の概要: Agile V: A Compliance-Ready Framework for AI-Augmented Engineering -- From Concept to Audit-Ready Delivery

arxiv url: http://arxiv.org/abs/2602.20684v1
Date: Tue, 24 Feb 2026 08:41:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.678201
Title: Agile V: A Compliance-Ready Framework for AI-Augmented Engineering -- From Concept to Audit-Ready Delivery
Title（参考訳）: Agile V: AI拡張エンジニアリングのためのコンプライアンス対応フレームワーク - 概念から監査対応デリバリまで
Authors: Christopher Koch, Joshua Andreas Wellbrock,
Abstract要約: 現在のAI支援エンジニアリングには、タスクレベルの検証と、マシンスピードデリバリ時の規制トレーサビリティを維持するための、組み込みメカニズムが欠如している。アジャイルVは、独立した検証と監査成果物の生成を各タスクサイクルに組み込むことで、このギャップに対処します。我々は, (H1) 監査可能なアーティファクトが開発副産物として出現し, (H2) 100%要件レベルの検証が独立したテスト生成で達成可能であり, (H3) 検証されたインクリメントは, サイクル毎に1桁のヒューマンインタラクションで提供できる,という3つの仮説を評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current AI-assisted engineering workflows lack a built-in mechanism to maintain task-level verification and regulatory traceability at machine-speed delivery. Agile V addresses this gap by embedding independent verification and audit artifact generation into each task cycle. The framework merges Agile iteration with V-Model verification into a continuous Infinity Loop, deploying specialized AI agents for requirements, design, build, test, and compliance, governed by mandatory human approval gates. We evaluate three hypotheses: (H1) audit-ready artifacts emerge as a by-product of development, (H2) 100% requirement-level verification is achievable with independent test generation, and (H3) verified increments can be delivered with single-digit human interactions per cycle. A feasibility case study on a Hardware-in-the-Loop system (about 500 LOC, 8 requirements, 54 tests) supports all three hypotheses: audit-ready documentation was generated automatically (H1), 100% requirement-level pass rate was achieved (H2), and only 6 prompts per cycle were required (H3), yielding an estimated 10-50x cost reduction versus a COCOMO II baseline (sensitivity range from pessimistic to optimistic assumptions). We invite independent replication to validate generalizability.
Abstract（参考訳）: 現在のAI支援エンジニアリングワークフローには、タスクレベルの検証と、マシンスピードデリバリ時の規制トレーサビリティを維持するための、組み込みメカニズムが欠如している。アジャイルVは、独立した検証と監査成果物の生成を各タスクサイクルに組み込むことで、このギャップに対処します。このフレームワークはアジャイルイテレーションとVモデル検証を連続したインフィニティループにマージし、要求、設計、ビルド、テスト、コンプライアンスのための特別なAIエージェントを配置する。我々は, (H1) 監査可能なアーティファクトが開発副産物として出現し, (H2) 100%要件レベルの検証が独立したテスト生成で達成可能であり, (H3) 検証されたインクリメントは, サイクル毎に1桁のヒューマンインタラクションで提供できる,という3つの仮説を評価した。ハードウェア・イン・ザ・ループシステム(約500 LOC, 8 要件, 54 テスト)に関する実現可能性ケーススタディでは、監査可能なドキュメンテーションが自動生成され(H1)、100%要求レベルのパスレートが達成され(H2)、サイクル毎に6つのプロンプトしか必要とせず(H3)、COCOMO II ベースラインに比べて10-50倍のコスト削減が期待できる(悲観的から楽観的な仮定の範囲)。一般化可能性を検証するために、独立レプリケーションを招待する。

関連論文リスト

CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments [1.6153514666902042]
実際の組織的な作業には、インターリーブ、依存関係、優先順位付けを伴って、多くの並行した長期タスクを管理する必要があります。マルチ水平タスク環境(MHTEs: Multi-Horizon Task Environments: MHTEs): 数十のインターリーブタスクでコヒーレントな実行を必要とする問題クラス。負荷が25%から100%になるにつれて、ベースラインCUAが16.7%から8.7%に低下する4つの障害モードを特定します。マルチ水平ゴールアライメントのための階層的計画を通じて,これらの障害に対処するアーキテクチャに依存しないフレームワークであるCorpGenを提案する。
論文参考訳（メタデータ） (2026-02-15T16:54:34Z)
EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文参考訳（メタデータ） (2026-01-29T11:33:49Z)
Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文参考訳（メタデータ） (2026-01-27T16:10:23Z)
APEX-SWE [4.927317067589892]
AI Productivity Index for Software Engineering (APEX-SWE)を紹介する。 APEX-SWEは、フロンティアAIモデルが経済的に価値のあるソフトウェアエンジニアリング作業を実行できるかどうかを評価するためのベンチマークである。 Gemini 3 Pro(Thinking = High)は、Pass@1スコアが25%である。
論文参考訳（メタデータ） (2026-01-13T18:44:08Z)
RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文参考訳（メタデータ） (2025-11-27T07:20:52Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Criteria for Credible AI-assisted Carbon Footprinting Systems: The Cases of Mapping and Lifecycle Modeling [0.0]
製品や材料に対する温室効果ガス(GHG)排出量を算出するAI支援システムを検証するための一連の基準を提案する。このアプローチは、AI支援環境アセスメントツールを評価するための実践者、監査人、および標準機関の基盤として使用することができる。
論文参考訳（メタデータ） (2025-08-29T21:05:19Z)
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
AI5GTest: AI-Driven Specification-Aware Automated Testing and Validation of 5G O-RAN Components [1.1879716317856948]
AI5GTest - AIによる仕様対応テストフレームワーク。 O-RANコンポーネントの検証を自動化するように設計されている。従来の手動の手法に比べて、全体のテスト実行時間が大幅に削減されている。
論文参考訳（メタデータ） (2025-06-11T18:49:57Z)
QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文参考訳（メタデータ） (2025-05-30T03:51:06Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。