論文の概要: Code as Agent Harness
- arxiv url: http://arxiv.org/abs/2605.18747v1
- Date: Mon, 18 May 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.229821
- Title: Code as Agent Harness
- Title(参考訳): エージェントハーネスとしてのコード
- Authors: Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He,
- Abstract要約: 新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
- 参考スコア(独自算出の注目度): 107.31925305395957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have demonstrated strong capabilities in understanding and generating code, from competitive programming to repository-level software engineering. In emerging agentic systems, code is no longer only a target output. It increasingly serves as an operational substrate for agent reasoning, acting, environment modeling, and execution-based verification. We frame this shift through the lens of agent harnesses and introduce code as agent harness: a unified view that centers code as the basis for agent infrastructure. To systematically study this perspective, we organize the survey around three connected layers. First, we study the harness interface, where code connects agents to reasoning, action, and environment modeling. Second, we examine harness mechanisms: planning, memory, and tool use for long-horizon execution, together with feedback-driven control and optimization that make harness reliable and adaptive. Third, we discuss scaling the harness from single-agent systems to multi-agent settings, where shared code artifacts support multi-agent coordination, review, and verification. Across these layers, we summarize representative methods and practical applications of code as agent harness, spanning coding assistants, GUI/OS automation, embodied agents, scientific discovery, personalization and recommendation, DevOps, and enterprise workflows. We further outline open challenges for harness engineering, including evaluation beyond final task success, verification under incomplete feedback, regression-free harness improvement, consistent shared state across multiple agents, human oversight for safety-critical actions, and extensions to multimodal environments. By centering code as the harness of agentic AI, this survey provides a unified roadmap toward executable, verifiable, and stateful AI agent systems.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、競合するプログラミングからリポジトリレベルのソフトウェア工学まで、コードを理解し、生成する強力な能力を示している。
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
エージェント推論、アクション、環境モデリング、実行ベースの検証のための運用上の基盤として、ますます役立っている。
私たちはエージェントハーネスのレンズを通してこのシフトをフレーム化し、エージェントハーネスとしてコードを導入します。
この視点を体系的に研究するために、我々は3つの連結層に関する調査を組織化した。
まず、コードがエージェントと推論、アクション、環境モデリングを結びつけるハーネスインターフェースについて検討する。
第2に、長期実行のための計画、メモリ、ツールの使用と、信頼性と適応性を実現するフィードバック駆動制御と最適化のハーネスメカニズムについて検討する。
第三に、共有コードアーティファクトがマルチエージェント調整、レビュー、検証をサポートするような、単一エージェントシステムからマルチエージェント設定へのハーネスのスケーリングについて論じる。
これらのレイヤにまたがって、エージェントハーネス、コーディングアシスタント、GUI/OS自動化、エンボディエージェント、科学的発見、パーソナライズとレコメンデーション、DevOps、エンタープライズワークフローとしてコードの代表的方法と実践的応用を要約する。
さらに、最終タスク成功以上の評価、不完全なフィードバックによる検証、回帰のないハーネスの改善、複数のエージェント間の一貫した共有状態、安全クリティカルな行動に対する人間の監視、マルチモーダル環境への拡張など、ハーネスエンジニアリングのオープンな課題について概説する。
エージェントAIの活用としてコードを集中させることで、この調査は実行可能で検証可能でステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
関連論文リスト
- CocoaBench: Evaluating Unified Digital Agents in the Wild [98.84044600506597]
ココアベンチ(CocoaBench)は、人間によって設計された長距離タスクから構築された統合デジタルエージェントのベンチマークである。
また、モデルバックボーン間の比較を制御できる軽量な共有足場であるCocoaAgentについても紹介する。
論文 参考訳(メタデータ) (2026-04-13T09:00:10Z) - Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization [69.36509281190662]
生産レベルのコンピュータビジョンツールを科学データセットに適応させることは、重要な"ラストマイル"ボトルネックである。
我々は、AIエージェントを使ってこの手動コーディングを自動化し、最適なエージェント設計のオープンな問題に焦点を当てる。
簡単なエージェントフレームワークが、人間-専門家のソリューションよりも優れた適応コードを生成することを実証する。
論文 参考訳(メタデータ) (2025-12-02T18:42:26Z) - AgentMesh: A Cooperative Multi-Agent Generative AI Framework for Software Development Automation [0.0]
ソフトウェア開発タスクの自動化に複数のLCMエージェントを併用したPythonベースのフレームワークを提案する。
AgentMeshでは、Planner、Coder、Debugger、Reviewerといった特殊なエージェントが協力して、ハイレベルな要件を完全に実現されたコードに変換する。
論文 参考訳(メタデータ) (2025-07-26T10:10:02Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - CodeAgent: Autonomous Communicative Agents for Code Review [12.163258651539236]
コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるツールを紹介する。
CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。
結果はCodeAgentの有効性を実証し、コードレビュー自動化の新たな最先端に寄与している。
論文 参考訳(メタデータ) (2024-02-03T14:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。