論文の概要: Meta-Engineering Harnesses for AI-Native Software Production: A Contract-Driven Adversarial Verification Architecture with Early Deployment Report
- arxiv url: http://arxiv.org/abs/2605.25665v1
- Date: Mon, 25 May 2026 10:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.650027
- Title: Meta-Engineering Harnesses for AI-Native Software Production: A Contract-Driven Adversarial Verification Architecture with Early Deployment Report
- Title(参考訳): AI-Native Software Productionのためのメタエンジニアリングのハーネス: 早期デプロイレポートを備えたコントラクト駆動の逆検証アーキテクチャ
- Authors: Satadru Sengupta, Tamunokorite Briggs, Ivan Myshakivskyi,
- Abstract要約: 運用および製品機能要件を明示的な契約に変換する,ソフトウェア生産アーキテクチャを提案する。
本稿では,2パスのコントラクトコンパイルを含む階層アーキテクチャについて述べる。
数週間にわたって17の機能にまたがる初期の運用デプロイメントの結果を報告します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-native software development is often evaluated at the level of individual models, prompts, or generated artifacts. This framing is insufficient for production environments where software must be continuously produced, verified, deployed, maintained, and adapted across many operational contexts and long time horizons. We present a meta-engineering harness: a software-production architecture that transforms operational and product feature requirements into explicit contracts, routes work through role-specialized AI agents, performs independent and adversarial verification, and continuously improves itself through structured failure classification and outer-loop calibration. The harness is designed for settings in which software delivery is not a one-time project but an ongoing operating function. In our motivating application, CTO-as-a-service for small service firms, the system manages websites, booking flows, payment systems, backoffice workflow automations, and AI-agent interfaces as continuously evolving technical infrastructure rather than one-off deliverables. We describe the layered architecture, including two-pass contract compilation, persistent markdown memory with specialization records, attention-based and independence-based verifications, a four-way failure arbiter, and outer-loop calibration. We report results from an early production deployment spanning 17 features over several weeks, including a detailed in-app payments case study that revealed contract incompleteness and verification-boundary issues. These observations directly drove targeted improvements to the harness. The contribution is an implemented, measurable, and extensible verification architecture for making AI-native service-as-a-software production reliable, auditable, and improvable over time.
- Abstract(参考訳): AIネイティブなソフトウェア開発は、個々のモデル、プロンプト、生成されたアーティファクトのレベルで評価されることが多い。
このフレーミングは、ソフトウェアを継続的に生産し、検証し、デプロイし、保守し、多くの運用状況と長期間の水平線に適応させなければならない運用環境では不十分である。
本稿では,運用および製品機能要件を明示的な契約に変換し,役割特定AIエージェントを経由し作業を行い,独立性および敵性検証を行い,構造化された障害分類と外ループキャリブレーションを通じて継続的に改善する,メタエンジニアリングハーネスを提案する。
このハーネスは、ソフトウェアデリバリが一度のプロジェクトではなく、進行中の運用機能であるような設定のために設計されている。
当社のモチベーションアプリケーションである中小企業のCTO-as-a-Serviceでは、Webサイト、予約フロー、支払いシステム、バックオフィスワークフロー自動化、AIエージェントインターフェースを、ワンオフデリバリではなく、継続的に進化する技術的インフラストラクチャとして管理しています。
本稿では,2パス契約のコンパイル,特化記録付き永続的マークダウンメモリ,アテンションベースおよび独立性に基づく検証,4方向故障オービタ,ループ外キャリブレーションなどの階層アーキテクチャについて述べる。
契約の不完全性と検証バウンダリの問題を明らかにするアプリ内支払いケーススタディを含む,数週間にわたって17の機能にまたがる早期運用デプロイメントの結果を報告する。
これらの観測により、目標とするハーネスの改良が進められた。
このコントリビューションは、AIネイティブなサービス・アズ・ア・ソフトウェア・プロダクションを信頼性があり、監査可能で、改善可能なものにするための、実装された、測定可能な、拡張可能な検証アーキテクチャである。
関連論文リスト
- Reversa: A Reverse Documentation Engineering Framework for Converting Legacy Software into Operational Specifications for AI Agents [0.0]
本稿では,レガシソフトウェアをAIエージェントのトレーサブルな運用仕様に変換するためのリバースドキュメンテーションエンジニアリングフレームワークであるReversaを紹介する。
特殊なエージェントは、プロジェクト表面をマッピングし、モジュールを分析し、暗黙のルールを抽出し、アーキテクチャを合成し、ユニットレベルの仕様を書き、生成されたクレームをレビューする。
提案では,コードと仕様間のトレーサビリティ,明確な信頼性マーキング,人間の検証のためのギャップの保存という,3つのメカニズムを強調している。
論文 参考訳(メタデータ) (2026-05-18T17:23:13Z) - AI Harness Engineering: A Runtime Substrate for Foundation-Model Software Agents [1.4323566945483497]
ファンデーションモデルは、自動コード生成を変革しましたが、現実的な開発環境では、自律的なソフトウェアエンジニアリングエージェントは信頼できないままです。
本稿では,基盤モデルエージェントがプロジェクトを観察し,それを処理し,フィードバックを受信し,変更が完了したことを確定する,モデルハーネス環境システムを提案する。
このフレームワークは、ファンデーションモデルがパッチを作成できるかどうかから、モデルハーネス環境システムが検証可能な正確さ、属性、メンテナンス可能な変更を生成できるかどうかという、自律的なソフトウェアエンジニアリングの中心的な疑問を再考する。
論文 参考訳(メタデータ) (2026-05-13T11:14:59Z) - Architectural Constraints Alignment in AI-assisted, Platform-based Service Development [32.505127447635864]
本稿では,プラットフォームベースのコード生成とエージェントによる明確化ループを組み合わせることで,アーキテクチャ制約の曖昧さの顕在化と解決を行う。
評価は、汎用AIコード生成の足場と比較して、アーキテクチャの一貫性とデプロイ性が改善されていることを示している。
論文 参考訳(メタデータ) (2026-05-06T14:28:28Z) - Shift-Up: A Framework for Software Engineering Guardrails in AI-native Software Development -- Initial Findings [1.1523102135577732]
Generative AI(GenAI)は、開発を手作業によるコーディングからエージェント駆動の実装に移行することで、ソフトウェアエンジニアリングを再構築する。
本稿では,GenAIネイティブ開発のための構造的ガードレールとして,実行可能な要件(BDD)やアーキテクチャモデリング(C4),アーキテクチャ決定記録(ADR)といった,確立したソフトウェアエンジニアリングプラクティスを再解釈するフレームワークであるShift-Upを提案する。
論文 参考訳(メタデータ) (2026-04-22T10:55:57Z) - Agentic AI in Engineering and Manufacturing: Industry Perspectives on Utility, Adoption, Challenges, and Opportunities [3.312613459249274]
この研究は、AI、特にエージェントシステムがエンジニアリングと製造にどのように採用されているか、今日の価値、より広範なデプロイメントに必要なものについて調べる。
近い将来のAIは、構造化された、反復的で、データ集約的な作業を中心にクラスタを獲得し、高い価値のエージェントは、ツールをまたいだマルチステップ作業のオーケストレーションから得ます。
採用は、断片化やマシン不フレンドリなデータ、厳格なセキュリティと規制要件、限定的なAPIアクセス可能なレガシツールよりも、モデル能力によって制限される。
論文 参考訳(メタデータ) (2026-03-19T22:36:34Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。
これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。