論文の概要: TimeWarp: Evaluating Web Agents by Revisiting the Past
- arxiv url: http://arxiv.org/abs/2603.04949v1
- Date: Thu, 05 Mar 2026 08:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.145108
- Title: TimeWarp: Evaluating Web Agents by Revisiting the Past
- Title(参考訳): TimeWarp:過去を再考してWebエージェントを評価する
- Authors: Md Farhan Ishmam, Kenneth Marino,
- Abstract要約: 当社では,UIや設計,レイアウトなどさまざまなコンテナ環境を使用して,Webの進化をエミュレートするベンチマークであるTimeWarpを紹介した。
実験の結果,Webエージェントによる変更に対する脆弱性と,シングルバージョン軌道上での行動クローニング(BC)の限界が明らかになった。
提案するTimeTrajは,複数バージョンにわたるトラジェクトリの収集に計画蒸留を用いる,シンプルで効果的なアルゴリズムである。
- 参考スコア(独自算出の注目度): 7.017865728670461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The improvement of web agents on current benchmarks raises the question: Do today's agents perform just as well when the web changes? We introduce TimeWarp, a benchmark that emulates the evolving web using containerized environments that vary in UI, design, and layout. TimeWarp consists of three web environments, each with six UI versions spanning different eras of the internet, paired with a set of complex, realistic tasks requiring different forms of web navigation. Our experiments reveal web agents' vulnerability to changes and the limitations of behavior cloning (BC) on single-version trajectories. To address this, we propose TimeTraj, a simple yet effective algorithm that uses plan distillation to collect trajectories across multiple versions. By training agents on teacher rollouts using our BC-variant, we achieve substantial performance gains: $20.4\%\rightarrow37.7\%$ for Qwen-3 4B and $0\%\rightarrow27.0\%$ for Llama-3.1 8B models. We hope our work helps researchers study generalization across web designs and unlock a new paradigm for collecting plans rather than trajectories, thereby improving the robustness of web agents.
- Abstract(参考訳): 現在のベンチマークにおけるWebエージェントの改善は、疑問を提起している。
当社では,UIや設計,レイアウトなどさまざまなコンテナ環境を使用して,Webの進化をエミュレートするベンチマークであるTimeWarpを紹介した。
TimeWarpは3つのWeb環境で構成されており、それぞれ異なる時代のインターネットにまたがる6つのUIバージョンがあり、異なる形態のWebナビゲーションを必要とする複雑な現実的なタスクのセットと組み合わせられている。
実験の結果,Webエージェントによる変更に対する脆弱性と,シングルバージョン軌道上での行動クローニング(BC)の限界が明らかになった。
そこで本研究では,複数バージョンにまたがるトラジェクトリの収集に計画蒸留を用いる簡易かつ効果的なTimeTrajを提案する。
BC-variantを使用して教師のロールアウトをトレーニングすることで、Qwen-3 4Bの20.4\%\rightarrow37.7\%、Llama-3.1 8Bの$0\%\rightarrow27.0\%というパフォーマンス向上を実現しました。
我々の研究は、研究者がWebデザイン全体にわたる一般化を研究し、軌道ではなく計画を集めるための新しいパラダイムを開放し、Webエージェントの堅牢性を向上させるのに役立つことを願っている。
関連論文リスト
- OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-14T02:33:55Z) - WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks [35.99528846296261]
WebGymは、現実的なビジュアルWebエージェントをトレーニングするための、これまでで最大のオープンソース環境である。
WebGymには30万近いタスクがあり、さまざまな現実世界のウェブサイトでルーブリックベースの評価が行われている。
論文 参考訳(メタデータ) (2026-01-05T09:35:11Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance [29.57207599604568]
WebCoachはモデルに依存しない自己進化フレームワークで、Webブラウジングエージェントに永続的なクロスセッションメモリを提供する。
WebCoachは、新しいナビゲーショントラジェクトリから連続的にエピソードメモリをキュレートすることで、自己進化を実現する。
WebVoyagerベンチマークの評価は、WebCoachがブラウザ使用エージェントのパフォーマンスを一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-17T05:38:50Z) - BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning [51.14454312533818]
WebGen-Agentは、包括的で多層的な視覚フィードバックを活用する新しいWebサイト生成エージェントである。
WebGen-Agent の推論エンジンとして機能する LLM の能力を向上させるために,Screenshot と GUI-Adnt Feedback を備えた textitStep-GRPO を導入している。
WebGen-Agent は Claude-3.5-Sonnet の精度を 26.4% から 51.9% に引き上げ、外観スコアを 3.0 から 3.9 に引き上げた。
論文 参考訳(メタデータ) (2025-09-26T17:59:51Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - WebRollback: Enhancing Web Agents with Explicit Rollback Mechanisms [52.942566473658054]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
マルチホップタスクの完了におけるエージェントの進捗を評価するための新しいプロトコルを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。