論文の概要: When Users Change Their Mind: Evaluating Interruptible Agents in Long-Horizon Web Navigation
- arxiv url: http://arxiv.org/abs/2604.00892v1
- Date: Wed, 01 Apr 2026 13:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.009335
- Title: When Users Change Their Mind: Evaluating Interruptible Agents in Long-Horizon Web Navigation
- Title(参考訳): ユーザーが意識を変えるとき:ロングホライゾンウェブナビゲーションにおける中断可能なエージェントの評価
- Authors: Henry Peng Zou, Chunyu Miao, Wei-Chieh Huang, Yankai Chen, Yue Zhou, Hanrong Zhang, Yaozu Wu, Liancheng Fang, Zhengyao Gu, Zhen Zhang, Kening Zheng, Fangxin Wang, Yi Nian, Shanghao Li, Wenzhe Fan, Langzhou He, Weizhi Zhang, Xue Liu, Philip S. Yu,
- Abstract要約: 本稿では,長期的,環境に配慮したWebナビゲーションタスクにおいて,割り込み可能なエージェントを初めて体系的に検討する。
我々は、追加、リビジョン、リトラクションを含む3つの現実的な中断タイプを形式化し、InterruptBenchを紹介します。
統合割り込みシミュレーションフレームワークを用いて,シングルターンおよびマルチターン割り込み設定における6つの強力なLDMバックボーンの評価を行った。
- 参考スコア(独自算出の注目度): 46.98726551486937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM agents transition from short, static problem solving to executing complex, long-horizon tasks in dynamic environments, the ability to handle user interruptions, such as adding requirement or revising goals, during mid-task execution is becoming a core requirement for realistic deployment. However, existing benchmarks largely assume uninterrupted agent behavior or study interruptions only in short, unconstrained language tasks. In this paper, we present the first systematic study of interruptible agents in long-horizon, environmentally grounded web navigation tasks, where actions induce persistent state changes. We formalize three realistic interruption types, including addition, revision, and retraction, and introduce InterruptBench, a benchmark derived from WebArena-Lite that synthesizes high-quality interruption scenarios under strict semantic constraints. Using a unified interruption simulation framework, we evaluate six strong LLM backbones across single- and multi-turn interruption settings, analyzing both their effectiveness in adapting to updated intents and their efficiency in recovering from mid-task changes. Our results show that handling user interruptions effectively and efficiently during long-horizon agentic tasks remains challenging for powerful large-scale LLMs. Code and dataset are available at https://github.com/HenryPengZou/InterruptBench.
- Abstract(参考訳): LLMエージェントが、短時間で静的な問題解決から、動的環境における複雑な長期タスクの実行に移行するにつれ、タスク実行中に要求の追加や目標の修正といったユーザ中断を処理する能力が、現実的なデプロイメントのコア要件になりつつある。
しかし、既存のベンチマークでは、短時間で制約のない言語タスクのみに、中断しないエージェントの動作や研究の中断を前提としている。
本稿では,長期的かつ環境に配慮したWebナビゲーションタスクにおいて,持続的な状態変化を誘発する割り込み可能なエージェントについて,最初の系統的研究を行う。
我々は、追加、リビジョン、リトラクションを含む3つの現実的な割り込みタイプを形式化し、厳密なセマンティック制約の下で高品質な割り込みシナリオを合成するWebArena-Liteから派生したベンチマークであるInterruptBenchを紹介した。
統合された割り込みシミュレーションフレームワークを用いて,シングルターンとマルチターンの割り込み設定にまたがる6つの強力なLCMバックボーンの評価を行い,更新意図への適応の有効性と,中間タスクの変更から回復する効率について分析した。
この結果から, 大規模LLMにおいて, 長時間のエージェントタスクにおいて, ユーザの割り込みを効果的かつ効率的に処理することは依然として困難であることが示唆された。
コードとデータセットはhttps://github.com/HenryPengZou/InterruptBench.comで入手できる。
関連論文リスト
- UMBRELLA: Uncertainty-aware Multi-robot Reactive Coordination under Dynamic Temporal Logic Tasks [5.794342083222513]
本稿では,動的および移動目標を含む協調作業のためのマルチロボットシステムのコーディネート問題に対処する。
コンフォーマル予測(CP)による目標運動予測の不確かさを明示的にモデル化する。
提案するフレームワーク (UMBRELLA) は,MCTS (Monte Carlo Tree Search) を部分計画と不確実性を考慮したロールアウトに組み合わせたものだ。
論文 参考訳(メタデータ) (2026-03-26T12:40:04Z) - Perceptive Hierarchical-Task MPC for Sequential Mobile Manipulation in Unstructured Semi-Static Environments [10.890430040930971]
連続的な移動操作は、一貫した動きの生成だけでなく、動作環境の変化に対するロボットの認識と適応性にも依存する。
本研究では,非構造的かつ変化する環境下での効率的な移動操作を実現するための,新しい知覚的階層型タスクモデル予測制御(HTMPC)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T20:55:30Z) - ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Intrinsic Adaptation [60.25542764389203]
LLM(Large Language Models)を利用したエージェントシステムは、複雑で長期のタスクに対処する上で、顕著な可能性を示している。
既存のアプローチでは、手動のオーケストレーションやランタイムベースのパッチを頼りにしており、一般化の貧弱さと最適化の断片化に悩まされることが多い。
ツール駆動の自己修正を可能にする新しいパラダイムであるToolSelfを提案する。
論文 参考訳(メタデータ) (2026-02-08T09:27:18Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - Real-Time Robot Execution with Masked Action Chunking [38.37108371991901]
ロボットのようなサイバー物理システムにはリアルタイム実行が不可欠である。
近年,リアルタイムロボット操作のためのシステムレベルのパラダイムとして,非同期推論が登場している。
本稿では,マスクされたアクションチャンキングによって事前訓練されたポリシーの修正を学習するREMACを提案する。
論文 参考訳(メタデータ) (2026-01-27T23:48:32Z) - The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios [34.25281365374991]
本稿では,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である方法を紹介する。
従来のベンチマークとは違って,(1)優先度の異なるストリーミングタスクのコンテキストアウェアスケジューリング,(2)能動的探索による幻覚の低減のための巧妙な情報取得,(3)規則に基づく動的生成タスクから一般化戦略を抽出した継続的進化,の3つの側面に沿ってエージェントを評価する。
私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
論文 参考訳(メタデータ) (2026-01-13T03:09:18Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。