論文の概要: Zoom to Essence: Trainless GUI Grounding by Inferring upon Interface Elements
- arxiv url: http://arxiv.org/abs/2603.14448v1
- Date: Sun, 15 Mar 2026 15:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.812146
- Title: Zoom to Essence: Trainless GUI Grounding by Inferring upon Interface Elements
- Title(参考訳): Zoom to Essence: インターフェース要素の推測によるトレインレスGUIグラウンディング
- Authors: Ziwei Liu, Tao Feng, Borui Kang, Yanbing Yang, Jun Luo,
- Abstract要約: マルチモーダル大言語モデル (MLLM) ベースのグラフィカルユーザインタフェース (GUI) エージェントは急速に発達する。
既存のGUIエージェントは、命令やUIインターフェースを理解する際の課題を処理するために、大規模なデータセット上でMLLMを微調整するのが一般的である。
本稿では,推論スケーリングを活用して,命令要素を段階的にアンカーする共通MLLMを,より詳細なインターフェース要素に誘導するZoomUIを提案する。
- 参考スコア(独自算出の注目度): 40.21437107734778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Model (MLLM)-based Graphical User Interface (GUI) agents develop rapidly, with visual grounding that maps natural language instructions to target UI elements serving as the core capability. Existing GUI agents typically fine-tune MLLM on massive datasets to handle challenges in understanding instructions and UI interfaces, which not only incurs high data annotation costs but also makes performance dependent on data quality and distribution. To avoid such cumbersome yet ineffective training, we notice that complex UI interfaces can be decomposed into basic visual elements directly understandable by common MLLMs. Consequently, we propose ZoomUI that leverages inference scaling to guide common MLLMs in progressively anchor instruction elements to increasingly detailed interface elements. Specifically, ZoomUI first optimizes the latent thinking to transform original instruction into element visual features description, and subsequently leverages internal attention to iteratively zoom in target element interface region. Evaluations on extensive benchmarks demonstrate that ZoomUI reaches or even surpasses SOTA baselines.
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) ベースのグラフィカルユーザインタフェース (GUI) エージェントは、自然言語命令をコア機能として機能するUI要素にマッピングする視覚的基盤によって、急速に発達する。
既存のGUIエージェントは、命令やUIインターフェースを理解する際の課題を処理するために、大規模なデータセット上でMLLMを微調整する。
このような煩雑で非効率なトレーニングを避けるため、複雑なUIインターフェースを一般的なMLLMで直接理解できる基本的なビジュアル要素に分解できることに気付いた。
そこで本研究では,推論スケーリングを活用するZoomUIを提案し,命令要素を段階的にアンカーする一般的なMLLMを,より詳細なインターフェース要素に誘導する。
具体的には、ZoomUIはまず潜在思考を最適化し、元の命令を要素の視覚的特徴記述に変換する。
広範なベンチマークによる評価は、ZoomUIがSOTAベースラインに到達または超えていることを示している。
関連論文リスト
- Structuring GUI Elements through Vision Language Models: Towards Action Space Generation [43.932266242034025]
マルチモーダル大規模言語モデル(MLLM)は、人間とコンピュータの相互作用を強化する重要なツールとして登場した。
本稿では,グラフィカルユーザインタフェース(GUI)要素構造化分野におけるMLLMの応用に焦点を当てた。
視覚モジュール機能を強化するために,IAML(IoU-Augmented Maximum Likelihood)トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2025-08-22T10:14:15Z) - DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [53.42606072841585]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文 参考訳(メタデータ) (2025-06-12T03:13:21Z) - TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents [0.6827423171182154]
TRISHULは、総合的なGUI理解のための一般のLVLMを強化する、トレーニング不要のフレームワークである。
この結果は、ScreenSpot、VisualWebBench、AITW、Mind2WebデータセットをまたいだアクショングラウンドにおけるTRISHULの優れたパフォーマンスを示している。
GUI参照の場合、TRISHULはScreenPRベンチマークのToLエージェントを超え、堅牢で適応可能なGUI理解のための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-02-12T09:12:30Z) - AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
そこで本稿では,UI要素に詳細な機能記述を自動アノテートする textbfAutoGUI パイプラインを提案する。
提案したパイプラインを用いて高品質なAutoGUI-704kデータセットを構築し,多種多様な機能アノテーションを特徴とする。
我々のデータセットは、VLMのUIグラウンド機能を大幅に強化し、大きなスケーリング効果を示す。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。