論文の概要: FineState-Bench: A Comprehensive Benchmark for Fine-Grained State Control in GUI Agents
- arxiv url: http://arxiv.org/abs/2508.09241v1
- Date: Tue, 12 Aug 2025 15:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.648233
- Title: FineState-Bench: A Comprehensive Benchmark for Fine-Grained State Control in GUI Agents
- Title(参考訳): FineState-Bench: GUIエージェントの詳細な状態制御のための総合ベンチマーク
- Authors: Fengxian Ji, Jingpu Yang, Zirui Song, Yuanxi Wang, Zhexuan Cui, Yuke Li, Qian Jiang, Miao Fang, Xiuying Chen,
- Abstract要約: ファインステートベンチ(FinState-Bench)は,GUIプロキシ操作のための評価および診断標準である。
FineState-Benchには4つのコンポーネントに2257のタスクベンチマークが含まれており、知覚制御評価に4フェーズインジケータを使用している。
我々の診断フレームワークは、現在のGUIプロキシの最大のボトルネックが基本的な視覚的位置決め能力であることを初めて確認します。
- 参考スコア(独自算出の注目度): 12.315613848863784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of generative artificial intelligence technology, Graphical User Interface (GUI) agents have demonstrated tremendous potential for autonomously managing daily tasks through natural language instructions. However, current evaluation frameworks for GUI agents suffer from fundamental flaws: existing benchmarks overly focus on coarse-grained task completion while neglecting fine-grained control capabilities crucial for real-world applications. To address this, we introduce FineState-Bench, the first evaluation and diagnostic standard for fine-grained GUI proxy operations, designed to quantify fine-grained control. This multi-platform (desktop, Web, mobile) framework includes 2257 task benchmarks in four components and uses a four-phase indicator for comprehensive perception-to-control assessment. To analyze perception and positioning for refined operations, we developed the plug-and-play Visual Diagnostic Assistant (VDA), enabling the first quantitative decoupling analysis of these capabilities. Experimental results on our benchmark show that the most advanced models achieve only 32.8% fine-grained interaction accuracy. Using our VDA in controlled experiments, quantifying the impact of visual capabilities, we showed that ideal visual localization boosts Gemini-2.5-Flash's success rate by 14.9\%. Our diagnostic framework confirms for the first time that the primary bottleneck for current GUI proxies is basic visual positioning capability.All resources are fully open-source. github: https://github.com/AnonymousThewarehouse/FineState-Bench huggingface: https://huggingface.co/datasets/Willtime2006/Static-FineBench
- Abstract(参考訳): 生成人工知能技術の急速な進歩により、グラフィカルユーザインタフェース(GUI)エージェントは自然言語による日々のタスクを自律的に管理する大きな可能性を実証した。
しかし、GUIエージェントの現在の評価フレームワークは、根本的な欠陥に悩まされている。既存のベンチマークは、現実世界のアプリケーションに不可欠なきめ細かい制御機能を無視しながら、粗いきめ細かなタスク補完に過度に重点を置いている。
そこで我々はファインステート・ベンチ(FineState-Bench)について紹介する。
このマルチプラットフォーム(デスクトップ、Web、モバイル)フレームワークには、4つのコンポーネントに2257のタスクベンチマークが含まれており、総合的な知覚制御評価に4フェーズインジケータを使用している。
そこで我々は,視覚診断アシスタント(VDA)を開発した。これにより,これらの機能について,最初の定量的デカップリング分析が可能となった。
実験結果から,最も先進的なモデルでは,微細な相互作用精度が32.8%しか得られないことが判明した。
VDAを制御された実験で使用し、視覚能力の影響を定量化することで、理想的な視覚的ローカライゼーションにより、Gemini-2.5-Flashの成功率が14.9%向上することを示した。
我々の診断フレームワークは、現在のGUIプロキシの最大のボトルネックが基本的な視覚的位置決め能力であることを初めて確認し、すべてのリソースが完全にオープンソースである。
https://github.com/AnonymousThewarehouse/FineState-Bench huggingface: https://huggingface.co/datasets/Willtime2006/Static-FineBench
関連論文リスト
- GEBench: Benchmarking Image Generation Models as GUI Environments [49.513441724802135]
GUI生成における動的相互作用と時間的コヒーレンスを評価するためのベンチマークであるGEBenchを紹介する。
GE-Scoreは、ゴール達成、インタラクションロジック、コンテンツ一貫性、UIの可視性、視覚品質を評価する新しい5次元メトリックである。
そこで本研究では,アイコンの解釈,テキストレンダリング,局所化精度を重要なボトルネックとして認識した。
論文 参考訳(メタデータ) (2026-02-09T18:52:02Z) - GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。
我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。
ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文 参考訳(メタデータ) (2026-01-14T14:27:28Z) - ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.222064425122795]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。
ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (2025-12-31T16:51:14Z) - Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。
本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。
実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-05T18:39:12Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - DashboardQA: Benchmarking Multimodal Agents for Question Answering on Interactive Dashboards [44.69783955774917]
DashboardQAは、ビジュアル言語GUIエージェントが現実世界のダッシュボードをどのように理解し、相互作用するかを評価するために設計されたベンチマークである。
Tableau Publicから112のインタラクティブダッシュボードと、マルチ選択、ファクトイド、仮説、マルチダッシュボード、会話という5つのカテゴリにまたがる対話型ダッシュボードを備えた405の質問応答ペアが含まれている。
この結果から, インタラクティブなダッシュボード推論は, 総合的に評価されるすべてのVLMにおいて難しい課題であることがわかった。
論文 参考訳(メタデータ) (2025-08-24T15:11:44Z) - GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。
従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。
本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:29:05Z) - Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。
提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。
我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2025-05-01T17:45:59Z) - WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point [17.165899818213475]
We introduced WorldGUI, a comprehensive GUI benchmark including tasks across 10 wide used desktop and web applications。
WorldGUI-Agentは3つのコアモジュールを統一する普遍的なフレームワークである。高レベルプラン修正のためのPlanner-Critic、中間検証のためのStep-Check、アクションレベルの最適化のためのActor-Criticである。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。