論文の概要: GEBench: Benchmarking Image Generation Models as GUI Environments
- arxiv url: http://arxiv.org/abs/2602.09007v1
- Date: Mon, 09 Feb 2026 18:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.435227
- Title: GEBench: Benchmarking Image Generation Models as GUI Environments
- Title(参考訳): GEBench:GUI環境としての画像生成モデルのベンチマーク
- Authors: Haodong Li, Jingwei Wu, Quan Sun, Guopeng Li, Juanxi Tian, Huanyu Zhang, Yanlin Lai, Ruichuan An, Hongbo Peng, Yuhong Dai, Chenxi Li, Chunmei Qing, Jia Wang, Ziyang Meng, Zheng Ge, Xiangyu Zhang, Daxin Jiang,
- Abstract要約: GUI生成における動的相互作用と時間的コヒーレンスを評価するためのベンチマークであるGEBenchを紹介する。
GE-Scoreは、ゴール達成、インタラクションロジック、コンテンツ一貫性、UIの可視性、視覚品質を評価する新しい5次元メトリックである。
そこで本研究では,アイコンの解釈,テキストレンダリング,局所化精度を重要なボトルネックとして認識した。
- 参考スコア(独自算出の注目度): 49.513441724802135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.
- Abstract(参考訳): 画像生成モデルの最近の進歩により、ユーザ指示に基づく将来のグラフィカルユーザインタフェース(GUI)状態の予測が可能になった。
しかし、既存のベンチマークは主に一般的なドメインの視覚的忠実さに重点を置いており、GUI固有のコンテキストにおける状態遷移と時間的コヒーレンスの評価が過小評価されている。
GEBenchはGUI生成における動的相互作用と時間的コヒーレンスを評価するための総合的なベンチマークである。
GEBenchは、5つのタスクカテゴリにまたがる700の慎重にキュレートされたサンプルで構成されており、実際のシナリオと架空のシナリオをまたいだシングルステップのインタラクションとマルチステップのトラジェクトリの両方をカバーし、ポイントローカライゼーションを根拠にしている。
GE-Scoreは,目標達成,インタラクションロジック,コンテンツ一貫性,UIの可視性,視覚品質を評価する新しい5次元尺度である。
現在のモデルに対する広範囲な評価は、それらはシングルステップの遷移においてうまく機能する一方で、時間的コヒーレンスとより長い相互作用シーケンスに対する空間的グラウンドの維持にかなり苦労していることを示している。
そこで本研究では,アイコンの解釈,テキストレンダリング,局所化精度を重要なボトルネックとして認識した。
本研究は,システム評価の基盤を提供し,高忠実度生成GUI環境の構築に向けた今後の研究の方向性を示唆する。
コードは、https://github.com/stepfun-ai/GEBench.comで入手できる。
関連論文リスト
- GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation [25.824982644530326]
本稿では,構造化推論,行動予測,履歴要約を統合した推論強化フレームワークを提案する。
このフレームワークは、履歴認識の目的を含む特別な報酬を使用し、要約品質とその後のアクションパフォーマンスを直接リンクする。
論文 参考訳(メタデータ) (2025-10-31T06:10:57Z) - RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。
RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文 参考訳(メタデータ) (2025-10-11T03:06:39Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - GUI-Robust: A Comprehensive Dataset for Testing GUI Agent Robustness in Real-World Anomalies [34.63675989928621]
本稿ではGUIエージェント評価のための新しいデータセットであるGUI-Robustを紹介する。
また、RPAツールを介して自然なインタラクションからユーザアクションシーケンスを収集する半自動データセット構築パラダイムを提案する。
このパラダイムは、アノテーションの時間コストを19倍以上削減します。
GUI-Robustデータセットを用いて最先端のGUIエージェントを評価し,異常なシナリオにおける性能劣化を明らかにした。
論文 参考訳(メタデータ) (2025-06-17T12:50:35Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。