論文の概要: RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management
- arxiv url: http://arxiv.org/abs/2604.13531v1
- Date: Wed, 15 Apr 2026 06:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.413935
- Title: RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management
- Title(参考訳): RiskWebWorld: EコマースリスクマネジメントにおけるGUIエージェントのためのリアルなインタラクティブベンチマーク
- Authors: Renqi Chen, Zeyin Tao, Jianming Guo, Jing Wang, Zezhou Xu, Jingzhe Zhu, Qingqing Sun, Tianyi Zhang, Shuai Chen,
- Abstract要約: RiskWebWorldは、Eコマースのリスク管理においてGUI(Graphical User Interface)エージェントを評価するためのインタラクティブなベンチマークである。
RiskWebWorldは8つのコアドメインにわたる運用リスクコントロールパイプラインから生成された1,513のタスクを特徴とする。
上位階層のジェネラリストモデルは49.1%の成功を達成し、特殊なオープンウェイトGUIモデルはほぼ完全な失敗で遅れている。
- 参考スコア(独自算出の注目度): 9.572518059490358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents show strong capabilities for automating web tasks, but existing interactive benchmarks primarily target benign, predictable consumer environments. Their effectiveness in high-stakes, investigative domains such as authentic e-commerce risk management remains underexplored. To bridge this gap, we present RiskWebWorld, the first highly realistic interactive benchmark for evaluating GUI agents in e-commerce risk management. RiskWebWorld features 1,513 tasks sourced from production risk-control pipelines across 8 core domains, and captures the authentic challenges of risk operations on uncooperative websites, partially environmental hijackments. To support scalable evaluation and agentic reinforcement learning (RL), we further build a Gymnasium-compliant infrastructure that decouples policy planning from environment mechanics. Our evaluation across diverse models reveals a dramatic capability gap: top-tier generalist models achieve 49.1% success, while specialized open-weights GUI models lag at near-total failure. This highlights that foundation model scale currently matters more than zero-shot interface grounding in long-horizon professional tasks. We also demonstrate the viability of our infrastructure through agentic RL, which improves open-source models by 16.2%. These results position RiskWebWorld as a practical testbed for developing robust digital workers.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、Webタスクを自動化する強力な能力を示しているが、既存のインタラクティブベンチマークは主に良質で予測可能なコンシューマ環境をターゲットにしている。
真正な電子商取引リスク管理のような、高い評価と調査の領域におけるそれらの効果は、いまだに未調査である。
このギャップを埋めるために、我々は、Eコマースのリスク管理においてGUIエージェントを評価するための、初めての非常に現実的なインタラクティブなベンチマークであるR RiskWebWorldを紹介します。
RiskWebWorldは8つのコアドメインにわたる生産リスクコントロールパイプラインから引き出された1,513のタスクを特徴としている。
スケーラブルな評価とエージェント強化学習(RL)を支援するため,環境力学からポリシープランニングを分離する,ジムナシウム準拠のインフラをさらに構築する。
最上位のジェネラリストモデルは49.1%の成功を達成し、特殊なオープンウェイトGUIモデルはほぼ完全な失敗に遅れている。
これは、現在ファンデーションモデルスケールが、長期のプロフェッショナルタスクにおいてゼロショットインターフェース以上のものになっていることを強調している。
また,オープンソースモデルを16.2%改善したエージェントRLによるインフラストラクチャの実現可能性についても紹介する。
これらの結果から、リスクWebWorldはロバストなデジタルワーカーを開発するための実践的なテストベッドとして位置づけられる。
関連論文リスト
- OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - World-Model-Augmented Web Agents with Action Correction [20.6992333559494]
モデルコラボレーション,結果シミュレーション,フィードバック駆動型行動改善を統合した Web エージェント WAC を提案する。
WACはVisualWebArenaで1.8%、Online-Mind2Webで1.3%という絶対的な利益を得ている。
論文 参考訳(メタデータ) (2026-02-17T06:37:31Z) - SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents [28.60912756104713]
大規模視覚言語モデル(LVLM)ベースのWebエージェントは、複雑なオンラインタスクを自動化する強力なツールとして登場しつつある。
既存のベンチマークは部分的カバレッジのみを提供し、通常は狭いシナリオに限定される。
LVLMベースのWebエージェントのセキュリティを評価するための,最初の総合的なベンチマークであるツールを提案する。
論文 参考訳(メタデータ) (2025-10-11T07:18:12Z) - RISK: A Framework for GUI Agents in E-commerce Risk Management [9.31949617565934]
電子商取引のリスク管理には、多段階のステートフルなインタラクションを通じて、多様な、深く埋め込まれたWebデータを集約する必要がある。
RISK(リンク)は、このドメインのためにGUIエージェントを構築し、デプロイするように設計された新しいフレームワークである。
RISK-Dataは8,492段のシングルステップと2,386段のマルチステップインタラクショントラジェクトリのデータセット、RISK-Benchは802段のシングルステップと320段のマルチステップトラジェクトリのベンチマークで、標準化された評価のために3つの困難レベルにまたがるベンチマーク、RISK-R1はR1スタイルの強化微調整フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T07:05:01Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。