論文の概要: SentinelBench: A Benchmark for Long-Running Monitoring Agents
- arxiv url: http://arxiv.org/abs/2606.05342v1
- Date: Wed, 03 Jun 2026 18:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.342992
- Title: SentinelBench: A Benchmark for Long-Running Monitoring Agents
- Title(参考訳): SentinelBench: 長時間監視エージェントのベンチマーク
- Authors: Matheus Kunzler Maldaner, Adam Fourney, Amanda Swearngin, Hussein Mozzanar, Gagan Bansal, Maya Murad, Rafah Hosn, Saleema Amershi,
- Abstract要約: SentinelBenchは、時間進化モニタリングタスクのためのオープンソースのベンチマークである。
メール、カレンダー、ファイナンス、プロフェッショナルネットワーキング、エンターテイメントなど10の合成ウェブ環境に100のタスクがある。
タスク完了、反応時間、リソース使用量を計測し、応答性とコストのトレードオフを明らかにする。
- 参考スコア(独自算出の注目度): 15.747784368559117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly asked to carry out work that spans minutes, hours, or longer. Yet the default model of agent behavior is continuous action: issuing tool calls, refreshing pages, searching for alternatives, or otherwise trying to force progress. This is the wrong approach for many long-running tasks, which are better served by a strategy of sustained attention. Instead, agents should monitor an environment, notice when an external event makes progress possible, then respond promptly without wasting resources while waiting. To measure progress on this class of tasks, we introduce SentinelBench, an open-source benchmark for time-evolving monitoring tasks. SentinelBench contains 100 tasks across 10 synthetic web environments, including email, calendars, finance, professional networking, and entertainment. Each environment exposes a live web interface and replays a scripted sequence of events, requiring agents to navigate and reason about web pages whose state shifts underfoot. SentinelBench measures task completion, reaction time, and resource use, exposing the tradeoff between responsiveness and cost. We report results across three models and two browser-agent harnesses, establishing performance baselines for future comparison and demonstrating how agent design choices can dramatically impact key metrics. Together, these results show that SentinelBench distinguishes meaningful differences in agent behavior.
- Abstract(参考訳): AIエージェントは、数分、数時間、あるいはそれ以上の作業を実行するように求められている。
ツールコールの発行、ページのリフレッシュ、代替手段の検索、その他の方法では進捗を強制する。
これは、長期にわたる多くのタスクにおいて間違ったアプローチであり、持続的な注意の戦略によってよりうまく機能する。
その代わり、エージェントは環境を監視し、外部イベントが進行可能になったことを通知し、待機中にリソースを無駄にすることなく即座に応答する。
このクラスのタスクの進捗を計測するために、時間進化モニタリングタスクのためのオープンソースのベンチマークであるSentinelBenchを紹介します。
SentinelBenchには、メール、カレンダー、ファイナンス、プロフェッショナルネットワーキング、エンターテイメントなど、10の合成Web環境に100のタスクが含まれている。
各環境はライブのWebインターフェースを公開し、スクリプト化された一連のイベントを再生する。
SentinelBenchはタスクの完了、反応時間、リソース使用量を計測し、応答性とコストのトレードオフを明らかにする。
3つのモデルと2つのブラウザエージェントハーネスにまたがって結果を報告し、将来の比較のためのパフォーマンスベースラインを確立し、エージェント設計の選択がキーメトリクスに劇的に影響を及ぼすことを示す。
これらの結果から,SentinelBenchはエージェントの挙動の有意な差異を区別することが明らかとなった。
関連論文リスト
- Multi-Agent Computer Use [72.79887808312706]
我々はマルチエージェント・コンピュータ・ユース(MACU)システムの評価・構築に向けて進むべきであると論じる。
本稿では、マネージャモデルがコンピュータ使用タスクを有向非巡回グラフ(DAG)として分解する汎用マルチエージェント構成を提案する。
各イテレーションで、マネージャは並列CUAサブエージェントをディスパッチし、DAGの準備ができているフロンティアでノードを実行する。
論文 参考訳(メタデータ) (2026-06-01T01:29:36Z) - GTA: Generating Long-Horizon Tasks for Web Agents at Scale [82.43869456830664]
我々は、クローリング、検索ベースのシード、コンテキスト内生成、自動品質管理を統合したスケーラブルなフレームワーク、GTAを導入する。
eコマース、政府、フォーラム、ニュースをカバーする50以上のウェブサイトでパイプラインをインスタンス化し、マルチリンガルとマルチホップをカバーしています。
i) マルチホップWebエージェントタスク生成の形式化、(ii) 自動データ生成のための効率的で検証されたパイプラインの提案、(iii) 再現可能な評価を伴う動的ベンチマークのリリースである。
論文 参考訳(メタデータ) (2026-05-28T01:05:50Z) - Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks [67.44219836008348]
我々はOdysseysについて紹介する。Odysseysは、ライブインターネット上で評価された実世界のブラウジングセッションから得られた200のロングホライゾンWebタスクのベンチマークである。
その結果,2進パス/フェイル評価は長距離設定では不十分であり,各Odysseysタスクに平均6.1グレードのルーリックをアノテートするルーリックに基づく評価が導入された。
最強のモデルは44.5%の成功率に達しており、将来の改善の余地は十分にある。
論文 参考訳(メタデータ) (2026-04-27T20:05:41Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - On the Reliability of Computer Use Agents [47.20065484006984]
コンピュータ利用エージェントの信頼性の低下の原因を3つの要因から検討する。
信頼性は、タスクの指定方法と、エージェントの動作が実行毎に変化する方法の両方に依存します。
論文 参考訳(メタデータ) (2026-04-20T05:59:04Z) - AgentProg: Empowering Long-Horizon GUI Agents with Program-Guided Context Management [24.465443389008055]
AgentProgはエージェントコンテキスト管理のためのプログラム誘導型アプローチである。
インタラクション履歴を変数と制御フローを備えたプログラムとして再構成する。
AndroidWorldと拡張ロングホライゾンタスクスイートの実験では、AgentProgが最先端の成功率を達成したことが示されています。
論文 参考訳(メタデータ) (2025-12-11T07:37:38Z) - BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions [48.194688161526756]
BrowserAgentは、事前に定義されたブラウザアクションのセットを通じて、Playwright経由で生のWebページで直接動作する。
ステップ間で重要な結論を格納するための明示的なメモリ機構を導入し、モデルの推論能力をさらに強化する。
論文 参考訳(メタデータ) (2025-10-12T15:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。