論文の概要: Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
- arxiv url: http://arxiv.org/abs/2606.01770v2
- Date: Wed, 03 Jun 2026 05:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.599425
- Title: Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
- Title(参考訳): Adaptive Auto-Harness: オープンエンディングタスクストリーム上でのエージェントシステム展開のための持続的自己改善
- Authors: Zewen Liu, Zhan Shi, Yisi Sang, Bing He, Minhua Lin, Tianxin Wei, Dakuo Wang, Benoit Dumoulin, Wei Jin, Hanqing Lu,
- Abstract要約: このようなストリームのためのフレームワークとシステムであるAdaptive Auto-Harnessを紹介します。
オラクルハーネスとのギャップを進化損失と適応損失に分解する。
予測市場、セキュリティ競争、イベント予測ストリームで、既存の5つのオートハーネスベースラインを上回ります。
- 参考スコア(独自算出の注目度): 41.672123164003814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and supporting infrastructure from execution feedback, but they are typically evaluated on fixed offline benchmarks. Real deployments instead present open-ended task streams: histories grow without a fixed endpoint, heterogeneous tasks require different harnesses, and problem distributions shift over time. These challenges make a single repeatedly and densely updated harness brittle, causing performance degradation as accuracy peaks early and then declines. This motivates sustained harness construction with task-wise adaptation. We introduce Adaptive Auto-Harness, a framework and system for such streams. The framework decomposes the gap to an oracle harness into evolution loss and adaptation loss. The system addresses these losses with a stateful multi-agent evolver, a harness tree with solve-time routing, and human-steering hooks for cases where history lacks the needed signal. Across prediction-market, security-competition, and event-forecasting streams, Adaptive Auto-Harness outperforms five existing auto-harness baselines and ablations attribute gains to better construction, routing, or targeted human steering. Code is available in \href{https://github.com/A-EVO-Lab/a-evolve/tree/release/adaptive-auto-harness}{Link}.
- Abstract(参考訳): A-Evolve、GEPA、Meta-Harnessといったオートハーネスシステムは、実行フィードバックからプロンプト、スキル、ツール、記憶を最適化し、インフラストラクチャをサポートすることでLLMエージェントを改善するが、通常は固定されたオフラインベンチマークで評価される。
履歴は固定されたエンドポイントなしで成長し、異種タスクは異なるハーネスを必要とし、問題分散は時間とともに変化する。
これらの課題は、1つの繰り返し更新されたハーネスの脆さを悪化させ、精度が早期にピーク時に性能が低下し、その後低下する。
これは、タスクワイド適応による持続的ハーネス構築のモチベーションである。
このようなストリームのためのフレームワークとシステムであるAdaptive Auto-Harnessを紹介します。
このフレームワークは、オラクルハーネスとのギャップを進化損失と適応損失に分解する。
システムはこれらの損失に、ステートフルなマルチエージェント進化器、問題解決時間ルーティングを備えたハーネスツリー、そして履歴に必要となる信号がないケースのためのヒューマンステアリングフックで対処する。
予測市場、セキュリティ競合、イベント予測ストリーム全体で、Adaptive Auto-Harnessは、既存の5つのオートハーネスベースラインとアブレーション属性を上回り、より良い建設、ルーティング、ターゲットの人間のステアリングを実現している。
コードは \href{https://github.com/A-EVO-Lab/a-evolve/tree/release/adaptive-auto-harness}{Link} で公開されている。
関連論文リスト
- Wink: Recovering from Misbehaviors in Coding Agents [6.794419834325995]
ソフトウェア業界では、複雑なエンジニアリングタスクを自動化するために、自動コーディングエージェントがますます採用されている。
これらのエージェントは、ユーザの指示から逸脱したり、繰り返しループで立ち往生したり、ツールを正しく使わなかったりするなど、幅広い誤動作を起こしやすい。
本稿では,エージェントの誤動作から自動的に回復するシステムについて述べる。
論文 参考訳(メタデータ) (2026-02-19T03:15:00Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - LADs: Leveraging LLMs for AI-Driven DevOps [3.240228178267042]
LADは、どの条件の下で最適化が機能するかを詳細に分析することで、構成最適化の原則化されたアプローチである。
Retrieval-Augmented Generation、Few-Shot Learning、Chain-of-Thought、Feedback-Based Prompt Chainingを活用することで、LADは正確な構成を生成し、デプロイメント障害から反復的に洗練されたシステム設定を学ぶ。
我々の発見は、パフォーマンス、コスト、スケーラビリティのトレードオフに関する重要な洞察を明らかにし、実践者が異なるデプロイメントシナリオに対して適切な戦略を決定するのに役立つ。
論文 参考訳(メタデータ) (2025-02-28T08:12:08Z) - A Graph-based Adversarial Imitation Learning Framework for Reliable & Realtime Fleet Scheduling in Urban Air Mobility [5.19664437943693]
本稿では,艦隊スケジューリング問題の包括的最適化について述べる。
また、代替ソリューションのアプローチの必要性も認識している。
新しい模倣アプローチは、目に見えない最悪のシナリオにおいて、パフォーマンスと顕著な改善を実現する。
論文 参考訳(メタデータ) (2024-07-16T18:51:24Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Lifelong Unsupervised Domain Adaptive Person Re-identification with
Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。
これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。
我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文 参考訳(メタデータ) (2021-12-13T13:19:45Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。