論文の概要: VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
- arxiv url: http://arxiv.org/abs/2512.16501v1
- Date: Thu, 18 Dec 2025 13:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.06756
- Title: VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
- Title(参考訳): VenusBench-GD:多言語多言語GUIベンチマーク
- Authors: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen,
- Abstract要約: 本稿では、GUIグラウンドニングのための総合的なバイリンガルベンチマークであるVenusBench-GDを紹介する。
VenusBench-GDは複数のプラットフォームにまたがる。
- 参考スコア(独自算出の注目度): 20.241892335459497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.
- Abstract(参考訳): GUIグラウンディングは、有能なGUIエージェントを構築する上で重要なコンポーネントである。
しかし、既存の基盤ベンチマークは、不十分なデータボリュームと狭いドメインカバレッジを提供するか、単一のプラットフォームに過度に集中し、高度に専門的なドメイン知識を必要とするか、重大な制限に悩まされている。
本稿では,複数のプラットフォームにまたがるGUIグラウンドの総合的バイリンガルベンチマークであるVenusBench-GDを紹介する。
VenusBench-GDは次のように貢献している。
(i)アプリケーション、多様なUI要素、豊富な注釈付きデータを含む大規模なクロスプラットフォームベンチマークを導入する。
(II)既存のベンチマークよりも高い精度で、タスクをグラウンド化するための高品質なデータ構築パイプラインを構築します。
3) 基本的・先進的なカテゴリーに分類する階層的なタスク分類を提案し, 相補的な視点からモデルを評価するために設計された6つのサブタスクを包含することにより, 要素基底化の範囲を拡大する。
汎用マルチモーダルモデルは現在,基礎的な接地作業において,特殊なGUIモデルに適合または超越している。
対照的に、高度なタスクはGUI特化モデルを好むが、かなりの過度なオーバーフィットとロバストさを示す。
これらの結果は、包括的な多層評価フレームワークの必要性を浮き彫りにしている。
関連論文リスト
- Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。
本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。
実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-05T18:39:12Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [57.371814877372515]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z) - UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis [15.429065788185522]
視覚ベースのグラフィカルユーザインタフェース(GUI)エージェントは、デジタルデバイス上での生産性を高めるために人間のような視覚知覚機能を利用する。
本稿では,要素間比,非平衡要素型,暗黙的命令など,このタスクにおける未探索課題について検討する。
既存のベンチマークの限界に対処する新しいGUI命令基底ベンチマークであるUI-I2E-Benchを提案する。
論文 参考訳(メタデータ) (2025-04-15T14:56:21Z) - Improved GUI Grounding via Iterative Narrowing [0.03375622857152329]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。