論文の概要: WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks
- arxiv url: http://arxiv.org/abs/2507.00938v1
- Date: Tue, 01 Jul 2025 16:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.736795
- Title: WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks
- Title(参考訳): WebArXiv: 時間不変arXivタスクにおけるマルチモーダルエージェントの評価
- Authors: Zihao Sun, Meng Fang, Ling Chen,
- Abstract要約: 本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
- 参考スコア(独自算出の注目度): 27.091938524991534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language models (LLMs) has enabled the development of autonomous web agents capable of navigating and interacting with real websites. However, evaluating such agents remains challenging due to the instability and inconsistency of existing benchmarks, which often rely on dynamic content or oversimplified simulations. In this work, we introduce WebArXiv, a static and time-invariant benchmark comprising 275 web-based tasks grounded in the arXiv platform. WebArXiv ensures reproducible and reliable evaluation by anchoring tasks in fixed web snapshots with deterministic ground truths and standardized action trajectories. Through behavioral analysis, we identify a common failure mode, Rigid History Reflection, where agents over-rely on fixed interaction histories. To address this, we propose a lightweight dynamic reflection mechanism that allows agents to selectively retrieve relevant past steps during decision-making. We evaluate ten state-of-the-art web agents on WebArXiv. Results demonstrate clear performance differences across agents and validate the effectiveness of our proposed reflection strategy.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、実際のWebサイトをナビゲートし対話できる自律型Webエージェントの開発が可能になった。
しかし、このようなエージェントの評価は、しばしば動的コンテンツや過度に単純化されたシミュレーションに依存する既存のベンチマークの不安定性と不整合のため、依然として困難である。
本稿では、arXivプラットフォーム上に275のWebベースのタスクからなる静的および時間不変のベンチマークであるWebArXivを紹介する。
WebArXivは、決定論的基底真理と標準化されたアクショントラジェクトリで固定されたWebスナップショットのタスクをアンカーすることで、再現性と信頼性の高い評価を保証する。
動作分析により、エージェントが固定されたインタラクション履歴を過度に参照する、共通の障害モードであるRigid History Reflectionを識別する。
これを解決するために,エージェントが意思決定中に関連する過去のステップを選択的に検索することのできる,軽量な動的リフレクション機構を提案する。
WebArXiv上で10の最先端Webエージェントを評価した。
その結果,エージェント間の性能差が明らかとなり,提案手法の有効性が検証された。
関連論文リスト
- WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。