論文の概要: Shepherd: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace
- arxiv url: http://arxiv.org/abs/2605.10913v1
- Date: Mon, 11 May 2026 17:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.05142
- Title: Shepherd: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace
- Title(参考訳): Shepherd: 形式化された実行トレースを備えたメタエージェントを活用可能なランタイム基板
- Authors: Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi,
- Abstract要約: ターゲットエージェントのメタエージェント操作を関数として形式化する関数型プログラミングモデルであるShepherdを紹介する。
Shepherdは、すべてのエージェントと環境のインタラクションをGitライクな実行トレースの型付きイベントとして記録し、過去の状態をフォークして再生することができる。
このシステムは、エージェントプロセスと、Dockerよりも5ドル高速にフォークし、リプレイ時のプロンプトキャッシュの再利用を95%以上達成している。
- 参考スコア(独自算出の注目度): 37.66254228361724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Shepherd, a functional programming model that formalizes meta-agent operations on target agents as functions, with core operations mechanized in Lean. Shepherd records every agent-environment interaction as a typed event in a Git-like execution trace, enabling any past state to be forked and replayed. The system forks the agent process and its filesystem $5\times$ faster than Docker, achieving $>95\%$ prompt-cache reuse on replay. We demonstrate the model through three applications. First, in runtime intervention, a live supervisor increases pair coding pass rates from 28.8% to 54.7% on CooperBench. Second, in counterfactual meta-optimization, branching exploration outperforms baselines across four benchmarks by up to 11 points while reducing wall-clock time by up to 58%. Third, in Tree-RL training, forking rollouts at selected turns improves TerminalBench-2 performance from 34.2% to 39.4%. These results establish Shepherd as an efficient infrastructure for programming meta-agents. We open-source the system to support future research.
- Abstract(参考訳): Shepherdは、ターゲットエージェントのメタエージェント操作を関数として形式化する関数型プログラミングモデルで、コア操作はLeanで機械化されています。
Shepherdは、すべてのエージェントと環境のインタラクションをGitライクな実行トレースの型付きイベントとして記録し、過去の状態をフォークして再生することができる。
このシステムはエージェントプロセスとファイルシステムをフォークし、Dockerよりも高速に$5\timesを出力し、リプレイ時に$>95\%のプロンプトキャッシュを再利用する。
3つの応用を通してモデルを実証する。
まず、実行時の介入において、ライブスーパーバイザーは、CooperBench上でペアコーディングのパスレートを28.8%から54.7%に向上させる。
第二に、デファクトメタ最適化では、分岐探索は4つのベンチマークのベースラインを最大11ポイント上回り、ウォールタイム時間を最大58%削減する。
第3に、Tree-RLトレーニングでは、選択したターンでのロールアウトをフォークすることで、TerminalBench-2のパフォーマンスが34.2%から39.4%に向上する。
これらの結果は、メタエージェントをプログラムするための効率的な基盤としてShepherdを確立する。
今後の研究を支援するためのシステムをオープンソースにしています。
関連論文リスト
- WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Workspace Optimization: How to Train Your Agent [49.579258311548635]
我々はエージェントのEmphworkspaceであり、それが読み取り、書き込み、テストする構造化された外部基質であると主張している。
本稿では,重み空間トレーニングの構造を反映して,作業空間を進化させる原理的手法を提案する。
ARC-AGI-3のマルチエージェントハーネスであるDreamTeamのアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-05-10T16:52:10Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring [2.4112990554464235]
textbfDeep Researcher Agentは,大規模言語モデル(LLM)エージェントが時計周辺で自律的にディープラーニング実験を行うことを可能にする,オープンソースのフレームワークである。
論文作成やコード生成に重点を置く既存のAI研究アシスタントとは異なり、私たちのシステムは仮説形成、コード実装、トレーニング実行、結果分析、反復的洗練という、完全な実験ライフサイクルに対処しています。
論文 参考訳(メタデータ) (2026-04-07T13:16:31Z) - ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces [17.202580606345666]
生産性タスクを自動化するために、大規模言語モデル(LLM)エージェントがますますデプロイされる。
既存のベンチマークは単純化された環境に依存しており、現実的なマルチサービス環境をキャプチャできない。
我々は,現実的な生産性設定におけるLCMエージェントの評価と改善のためのベンチマークであるClawsBenchを紹介する。
論文 参考訳(メタデータ) (2026-04-06T21:09:06Z) - WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning [51.14454312533818]
WebGen-Agentは、包括的で多層的な視覚フィードバックを活用する新しいWebサイト生成エージェントである。
WebGen-Agent の推論エンジンとして機能する LLM の能力を向上させるために,Screenshot と GUI-Adnt Feedback を備えた textitStep-GRPO を導入している。
WebGen-Agent は Claude-3.5-Sonnet の精度を 26.4% から 51.9% に引き上げ、外観スコアを 3.0 から 3.9 に引き上げた。
論文 参考訳(メタデータ) (2025-09-26T17:59:51Z) - GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git [0.8397730500554048]
GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。
私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。
我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
論文 参考訳(メタデータ) (2025-05-28T16:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。