論文の概要: D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies
- arxiv url: http://arxiv.org/abs/2511.16590v1
- Date: Thu, 20 Nov 2025 17:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.768369
- Title: D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies
- Title(参考訳): D-GARA:実世界の異常におけるGUIエージェントロバストネスのための動的ベンチマークフレームワーク
- Authors: Sen Chen, Tong Zhao, Yi Bin, Fei Ma, Wenqi Shao, Zheng Wang,
- Abstract要約: 実世界の異常におけるAndroid GUIエージェントの堅牢性を評価するためのベンチマークフレームワークD-GARAを提案する。
D-GARAフレームワークをベースとして、一般的に使われているAndroidアプリケーションに組込み異常のあるベンチマークを構築し、注釈付けする。
総合的な実験と結果は、異常に富む環境に曝露した場合、最先端のGUIエージェントの性能低下を示す。
- 参考スコア(独自算出の注目度): 39.738017374978796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing intelligent agents capable of operating a wide range of Graphical User Interfaces (GUIs) with human-level proficiency is a key milestone on the path toward Artificial General Intelligence. While most existing datasets and benchmarks for training and evaluating GUI agents are static and idealized, failing to reflect the complexity and unpredictability of real-world environments, particularly the presence of anomalies. To bridge this research gap, we propose D-GARA, a dynamic benchmarking framework, to evaluate Android GUI agent robustness in real-world anomalies. D-GARA introduces a diverse set of real-world anomalies that GUI agents commonly face in practice, including interruptions such as permission dialogs, battery warnings, and update prompts. Based on D-GARA framework, we construct and annotate a benchmark featuring commonly used Android applications with embedded anomalies to support broader community research. Comprehensive experiments and results demonstrate substantial performance degradation in state-of-the-art GUI agents when exposed to anomaly-rich environments, highlighting the need for robustness-aware learning. D-GARA is modular and extensible, supporting the seamless integration of new tasks, anomaly types, and interaction scenarios to meet specific evaluation goals.
- Abstract(参考訳): 幅広いグラフィカルユーザインタフェース(GUI)を人間レベルの習熟度で操作できるインテリジェントエージェントの開発は、人工知能への道のりの重要なマイルストーンである。
GUIエージェントのトレーニングと評価のための既存のデータセットとベンチマークは静的で理想化されているが、実際の環境、特に異常の存在の複雑さと予測不可能性を反映していない。
この研究ギャップを埋めるため,実世界の異常におけるAndroid GUIエージェントの堅牢性を評価するための動的ベンチマークフレームワークD-GARAを提案する。
D-GARAは、パーミッションダイアログ、バッテリ警告、更新プロンプトなどの割り込みを含む、GUIエージェントが実際に一般的に直面する様々な現実世界の異常を導入している。
D-GARAフレームワークをベースとして,より広範なコミュニティ研究を支援するために,一般的なAndroidアプリケーションと組込み異常を備えたベンチマークを構築し,アノテートする。
総合的な実験と結果により、異常に富んだ環境に晒された場合、最先端のGUIエージェントの性能は大幅に低下し、ロバストネスを意識した学習の必要性が強調された。
D-GARAはモジュールで拡張可能で、特定の評価目標を満たすために、新しいタスク、異常型、相互作用シナリオのシームレスな統合をサポートする。
関連論文リスト
- Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - GUI-Robust: A Comprehensive Dataset for Testing GUI Agent Robustness in Real-World Anomalies [34.63675989928621]
本稿ではGUIエージェント評価のための新しいデータセットであるGUI-Robustを紹介する。
また、RPAツールを介して自然なインタラクションからユーザアクションシーケンスを収集する半自動データセット構築パラダイムを提案する。
このパラダイムは、アノテーションの時間コストを19倍以上削減します。
GUI-Robustデータセットを用いて最先端のGUIエージェントを評価し,異常なシナリオにおける性能劣化を明らかにした。
論文 参考訳(メタデータ) (2025-06-17T12:50:35Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - On the Robustness of GUI Grounding Models Against Image Attacks [32.731293426828785]
UGroundのような最先端GUIグラウンドモデルのロバスト性を3つの条件下で体系的に評価する。
実験により,GUI接地モデルは対向摂動や低分解能条件に対して高い感度を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-07T03:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。