論文の概要: RISK: A Framework for GUI Agents in E-commerce Risk Management
- arxiv url: http://arxiv.org/abs/2509.21982v1
- Date: Fri, 26 Sep 2025 07:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.258513
- Title: RISK: A Framework for GUI Agents in E-commerce Risk Management
- Title(参考訳): RISK:EコマースリスクマネジメントにおけるGUIエージェントのためのフレームワーク
- Authors: Renqi Chen, Zeyin Tao, Jianming Guo, Jingzhe Zhu, Yiheng Peng, Qingqing Sun, Tianyi Zhang, Shuai Chen,
- Abstract要約: 電子商取引のリスク管理には、多段階のステートフルなインタラクションを通じて、多様な、深く埋め込まれたWebデータを集約する必要がある。
RISK(リンク)は、このドメインのためにGUIエージェントを構築し、デプロイするように設計された新しいフレームワークである。
RISK-Dataは8,492段のシングルステップと2,386段のマルチステップインタラクショントラジェクトリのデータセット、RISK-Benchは802段のシングルステップと320段のマルチステップトラジェクトリのベンチマークで、標準化された評価のために3つの困難レベルにまたがるベンチマーク、RISK-R1はR1スタイルの強化微調整フレームワークである。
- 参考スコア(独自算出の注目度): 9.31949617565934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce risk management requires aggregating diverse, deeply embedded web data through multi-step, stateful interactions, which traditional scraping methods and most existing Graphical User Interface (GUI) agents cannot handle. These agents are typically limited to single-step tasks and lack the ability to manage dynamic, interactive content critical for effective risk assessment. To address this challenge, we introduce RISK, a novel framework designed to build and deploy GUI agents for this domain. RISK integrates three components: (1) RISK-Data, a dataset of 8,492 single-step and 2,386 multi-step interaction trajectories, collected through a high-fidelity browser framework and a meticulous data curation process; (2) RISK-Bench, a benchmark with 802 single-step and 320 multi-step trajectories across three difficulty levels for standardized evaluation; and (3) RISK-R1, a R1-style reinforcement fine-tuning framework considering four aspects: (i) Output Format: Updated format reward to enhance output syntactic correctness and task comprehension, (ii) Single-step Level: Stepwise accuracy reward to provide granular feedback during early training stages, (iii) Multi-step Level: Process reweight to emphasize critical later steps in interaction sequences, and (iv) Task Level: Level reweight to focus on tasks of varying difficulty. Experiments show that RISK-R1 outperforms existing baselines, achieving a 6.8% improvement in offline single-step and an 8.8% improvement in offline multi-step. Moreover, it attains a top task success rate of 70.5% in online evaluation. RISK provides a scalable, domain-specific solution for automating complex web interactions, advancing the state of the art in e-commerce risk management.
- Abstract(参考訳): 電子商取引のリスク管理には、多段階のステートフルなインタラクションを通じて、多様で深く埋め込まれたWebデータを集約する必要がある。
これらのエージェントは通常、シングルステップのタスクに限定されており、効果的なリスク評価に不可欠な動的でインタラクティブなコンテンツを管理する能力が欠如している。
この課題に対処するために、私たちは、このドメインのためにGUIエージェントを構築し、デプロイするように設計された新しいフレームワークRISKを紹介します。
RISK-Dataは8,492個のシングルステップと2,386個のマルチステップインタラクショントラジェクトリのデータセットを高忠実なブラウザフレームワークと精巧なデータキュレーションプロセスを通じて収集し、(2) RISK-Benchは802個のシングルステップと320個のマルチステップのトラジェクトリを標準評価のために3つの困難レベルにわたって比較したベンチマークであり、(3) RISK-R1はR1スタイルの強化微調整フレームワークである。
(i)出力フォーマット:出力構文的正しさとタスク理解を高めるために更新されたフォーマット報酬。
2) 単段階レベル: 早期訓練期間中に細かいフィードバックを提供するための段階的正確性報酬。
三 マルチステップレベル インタラクションシークエンスにおける重要な後段を強調するためのプロセスリウェイト
(4)タスクレベル: 難易度が異なるタスクにフォーカスするレベルリウェイト。
実験の結果、RISK-R1は既存のベースラインより優れており、オフラインシングルステップでは6.8%、オフラインマルチステップでは8.8%向上している。
さらに、オンライン評価において70.5%のタスク成功率を達成している。
RISKは、複雑なWebインタラクションを自動化するためのスケーラブルでドメイン固有のソリューションを提供する。
関連論文リスト
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - Unsupervised Learning-Based Joint Resource Allocation and Beamforming Design for RIS-Assisted MISO-OFDMA Systems [30.213306735656648]
本稿では、RIS支援MISO-OFDMAシステムにおけるダウンリンク伝送について検討し、資源割り当て問題に対処する。
RIS位相シフト、BSビームフォーミング、リソースブロック(RB)アロケーションを共同設計するために、2段階の教師なし学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-12T23:50:38Z) - WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning [37.89715280583421]
WebAgent-R1は、Webエージェントをトレーニングするためのエンドツーエンドのマルチターン強化学習フレームワークである。
WebArena-Liteベンチマークの実験は、WebAgent-R1の有効性を示し、Qwen-2.5-3Bのタスク成功率を6.1%から33.9%に向上させた。
In-depth Analysis revealed the effect of the thinking-based prompting strategy and test-time scaling through increase interaction for web task。
論文 参考訳(メタデータ) (2025-05-22T09:07:43Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。