論文の概要: The Last Harness You'll Ever Build
- arxiv url: http://arxiv.org/abs/2604.21003v2
- Date: Tue, 28 Apr 2026 02:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.792219
- Title: The Last Harness You'll Ever Build
- Title(参考訳): あなたが作る最後のハーネス
- Authors: Haebin Seong, Li Yin, Haoran Zhang,
- Abstract要約: AIエージェントは、複雑でドメイン固有のアプリケーションにますますデプロイされる。
我々は、ハーネスエンジニアリングプロセスを自動化する2段階のフレームワークを提案する。
メタラーニングへの対応を形式化し、両方のアルゴリズムを提示する。
- 参考スコア(独自算出の注目度): 9.741938550862034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly deployed on complex, domain-specific workflows -- navigating enterprise web applications that require dozens of clicks and form fills, orchestrating multi-step research pipelines that span search, extraction, and synthesis, automating code review across unfamiliar repositories, and handling customer escalations that demand nuanced domain knowledge. \textbf{Each new task domain requires painstaking, expert-driven harness engineering}: designing the prompts, tools, orchestration logic, and evaluation criteria that make a foundation model effective. We present a two-level framework that automates this process. At the first level, the \textbf{Harness Evolution Loop} optimizes a worker agent's harness $\mathcal{H}$ for a single task: a Worker Agent $W_{\mathcal{H}}$ executes the task, an Evaluator Agent $V$ adversarially diagnoses failures and scores performance, and an Evolution Agent $E$ modifies the harness based on the full history of prior attempts. At the second level, the \textbf{Meta-Evolution Loop} optimizes the evolution blueprint $Λ= (W_{\mathcal{H}}, \mathcal{H}^{(0)}, V, E)$ itself across diverse tasks, \textbf{learning a blueprint $Λ^{(\text{best})}$ that enables rapid harness convergence on any new task -- so that adapting an agent to a novel domain requires no human harness engineering at all.} We formalize the correspondence to meta-learning and present both algorithms. The framework \textbf{shifts manual harness engineering into automated harness engineering}, and takes one step further -- \textbf{automating the design of the automation itself}.
- Abstract(参考訳): AIエージェントは、複雑なドメイン固有のワークフローにますますデプロイされている -- 数十のクリックとフォームフィリングを必要とするエンタープライズWebアプリケーションをナビゲートし、検索、抽出、合成にまたがる多段階の研究パイプラインを編成し、馴染みのないリポジトリ間でコードレビューを自動化する。
ファウンデーションモデルを効果的にするためのプロンプト、ツール、オーケストレーションロジック、評価基準を設計する。
このプロセスを自動化する2段階のフレームワークを提案する。
最初のレベルでは、Worker Agent $W_{\mathcal{H}}$がタスクを実行し、Evaluator Agent $V$が障害を逆向きに診断してパフォーマンスをスコアし、Evolution Agent $E$が以前の試みの全履歴に基づいてハーネスを変更する。
第2のレベルでは、 \textbf{Meta-Evolution Loop} は進化の青写真 $ = (W_{\mathcal{H}}, \mathcal{H}^{(0)}, V, E)$ を最適化する。
メタラーニングへの対応を形式化し、両方のアルゴリズムを提示する。
フレームワーク \textbf{shifts 手動ハーネスエンジニアリングを自動ハーネスエンジニアリングに移行し、さらに一歩前進する -- \textbf{automating the design of the automation itself}。
関連論文リスト
- Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems [72.3575737073235]
マルチエージェントシステム(MAS)は、複数のエージェントを協調することで複雑なタスクを解決する。
既存のアプローチはタスクレベルかクエリレベルで生成されるが、その相対的なコストと利点は未だ不明である。
クエリレベルのワークフロー生成は必ずしも必要ではない、なぜなら、トップKレベルのタスクレベルの小さなセットが、すでに同等あるいはそれ以上のクエリをカバーしているからだ。
論文 参考訳(メタデータ) (2026-01-16T10:05:51Z) - Unison: A Fully Automatic, Task-Universal, and Low-Cost Framework for Unified Understanding and Generation [29.971317846027826]
統一された理解と生成はマルチモーダル学習において非常に魅力的な研究方向である。
事前学習モデルの性能を良好に保ちつつ、2段階のスキームを取り入れたUnisonを提案する。
トレーニングコストが非常に低いため、テキスト、画像、ビデオ理解など、さまざまなマルチモーダル理解タスクをカバーしています。
また,ユーザの意図を自動的に解析し,目的のタスクタイプを判断し,対応するタスクに必要なメタ情報を正確に抽出する能力も備えている。
論文 参考訳(メタデータ) (2025-12-08T17:34:15Z) - EvoFlow: Evolving Diverse Agentic Workflows On The Fly [21.82515160298748]
EvoFlowは、複雑で異質なエージェントの集団を自動的に検索する、ニッチな進化アルゴリズムベースのフレームワークである。
EvoFlowは、単純なI/Oタスクから複雑なマルチターンインタラクションまで、多くの個体群を進化させることができる。
論文 参考訳(メタデータ) (2025-02-11T08:48:46Z) - Multi-agent Architecture Search via Agentic Supernet [17.235963703597093]
大規模言語モデル(LLM)を利用したマルチエージェントシステムは、個々のエージェントの認知的境界を拡張する。
エージェントの設計を自動化する方法が利用可能であるにもかかわらず、彼らは通常、静的で複雑で、1サイズに適したシステムを見つけ出そうとする。
スーパーネットからクエリ依存エージェントシステムをサンプリングする自動フレームワークであるMASを紹介する。
論文 参考訳(メタデータ) (2025-02-06T16:12:06Z) - RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。
RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文 参考訳(メタデータ) (2024-10-03T05:45:26Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - Cooperative Multi-Agent Reinforcement Learning: Asynchronous
Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。
本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。
我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文 参考訳(メタデータ) (2023-05-10T20:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。