論文の概要: AI Harness Engineering: A Runtime Substrate for Foundation-Model Software Agents
- arxiv url: http://arxiv.org/abs/2605.13357v1
- Date: Wed, 13 May 2026 11:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.00363
- Title: AI Harness Engineering: A Runtime Substrate for Foundation-Model Software Agents
- Title(参考訳): AI Harness Engineering: ファンデーションモデルソフトウェアエージェントのランタイム基盤
- Authors: Hailin Zhong, Shengxin Zhu,
- Abstract要約: ファンデーションモデルは、自動コード生成を変革しましたが、現実的な開発環境では、自律的なソフトウェアエンジニアリングエージェントは信頼できないままです。
本稿では,基盤モデルエージェントがプロジェクトを観察し,それを処理し,フィードバックを受信し,変更が完了したことを確定する,モデルハーネス環境システムを提案する。
このフレームワークは、ファンデーションモデルがパッチを作成できるかどうかから、モデルハーネス環境システムが検証可能な正確さ、属性、メンテナンス可能な変更を生成できるかどうかという、自律的なソフトウェアエンジニアリングの中心的な疑問を再考する。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have transformed automated code generation, yet autonomous software-engineering agents remain unreliable in realistic development settings. The dominant explanation locates this gap in model capability. We propose a different locus: software-engineering capability emerges from a model-harness-environment system, in which a runtime substrate -- the harness -- mediates how a foundation-model agent observes a project, acts on it, receives feedback, and establishes that a change is complete. We formalize this substrate as an AI Harness Engineering and identify eleven component responsibilities: task specification, context selection, tool access, project memory, task state, observability, failure attribution, verification, permissions, entropy auditing, and intervention recording. We operationalize the harness through a four-level ladder (H0-H3) that progressively exposes runtime support to the agent, and we propose a trace-based evaluation protocol that converts each agent run into an auditable episode package. Applied to a controlled validation task, the framework yields episode packages whose evidence structure varies systematically with harness level: lower levels produce only a final patch, higher levels produce reproduction logs, failure attributions, deterministic requirement checks, and structured verification reports. The framework reframes the central question of autonomous software engineering from whether a foundation model can produce a patch to whether the model-harness-environment system can produce a verifiably correct, attributed, and maintainable change. We outline a research program for the runtime systems that foundation-model software agents will require.
- Abstract(参考訳): ファンデーションモデルは、自動コード生成を変革しましたが、現実的な開発環境では、自律的なソフトウェアエンジニアリングエージェントは信頼できないままです。
支配的な説明は、モデル能力のこのギャップを見つけることである。
ソフトウェアエンジニアリング能力は、ランタイム基板であるハーネスが、ファンデーションモデルエージェントがどのようにプロジェクトを観察し、それを実行し、フィードバックを受け、変更が完了したかを媒介するモデルハーネス環境システムから出現する。
我々は、この基板をAIハーネスエンジニアリングとして形式化し、タスク仕様、コンテキスト選択、ツールアクセス、プロジェクトメモリ、タスク状態、可観測性、障害属性、検証、許可、エントロピー監査、介入記録の11のコンポーネント責任を特定します。
エージェントに実行時サポートを段階的に公開する4レベルラグ(H0-H3)を介してハーネスを運用し、各エージェントを監査可能なエピソードパッケージに変換するトレースベースの評価プロトコルを提案する。
制御された検証タスクに適用されたフレームワークは、エビデンス構造がハーネスレベルで体系的に変化するエピソードパッケージを生成する。下位レベルは最終パッチのみを生成し、上位レベルは再生ログを生成し、障害属性、決定論的要件チェック、構造化された検証レポートを生成する。
このフレームワークは、ファンデーションモデルがパッチを作成できるかどうかから、モデルハーネス環境システムが検証可能な正確さ、属性、メンテナンス可能な変更を生成できるかどうかという、自律的なソフトウェアエンジニアリングの中心的な疑問を再考する。
基礎モデルソフトウェアエージェントが必要とするランタイムシステムの研究プログラムの概要を述べる。
関連論文リスト
- AI-Generated Smells: An Analysis of Code and Architecture in LLM and Agent-Driven Development [1.980498913496519]
本稿では,AI生成ソフトウェアにおける技術的負債の体系的な監査について述べる。
AIは欠陥を排除せず、むしろ欠陥のマシンシグネチャを導入している。
将来的な進歩は、彼らが構築するソフトウェアが単に機能的であるだけでなく、メンテナンス可能であることを保証するために、明示的なアーキテクチャの展望を持つエージェントの装備に依存する、と結論付けています。
論文 参考訳(メタデータ) (2026-05-04T15:41:13Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain [0.0]
品質駆動型推論時間スキャフォールドであるQoTを導入し,ユーザ目標をエンジニアリングステップの順序付きシーケンスに変換する。
QoTは、API設計、データ通信、ファイルシステムの3つの代表的なバックエンドエンジニアリング領域にまたがって評価する。
論文 参考訳(メタデータ) (2026-03-10T23:49:09Z) - The Auton Agentic AI Framework [5.410458076724158]
人工知能の分野では、ジェネレーティブAIからエージェントAIへの移行が進行中である。
大規模言語モデル(LLM)は構造化されていない出力を生成するが、それらが制御しなければならないバックエンドインフラストラクチャは決定論的でスキーマに適合する入力を必要とする。
本稿では,自律エージェントの作成,作成,管理を行うための原則アーキテクチャであるAuton Agentic AI Frameworkについて述べる。
論文 参考訳(メタデータ) (2026-02-27T06:42:08Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。