論文の概要: DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning
- arxiv url: http://arxiv.org/abs/2507.00008v1
- Date: Thu, 12 Jun 2025 03:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.375813
- Title: DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning
- Title(参考訳): DiMo-GUI: Modality-Aware Visual ReasoningによるGUIグラウンディングにおけるテスト時間スケーリングの改善
- Authors: Hang Wu, Hongkai Chen, Yujun Cai, Chang Liu, Qingwen Ye, Ming-Hsuan Yang, Yiwei Wang,
- Abstract要約: トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
- 参考スコア(独自算出の注目度): 52.37530640460363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding natural language queries in graphical user interfaces (GUIs) poses unique challenges due to the diversity of visual elements, spatial clutter, and the ambiguity of language. In this paper, we introduce DiMo-GUI, a training-free framework for GUI grounding that leverages two core strategies: dynamic visual grounding and modality-aware optimization. Instead of treating the GUI as a monolithic image, our method splits the input into textual elements and iconic elements, allowing the model to reason over each modality independently using general-purpose vision-language models. When predictions are ambiguous or incorrect, DiMo-GUI dynamically focuses attention by generating candidate focal regions centered on the model's initial predictions and incrementally zooms into subregions to refine the grounding result. This hierarchical refinement process helps disambiguate visually crowded layouts without the need for additional training or annotations. We evaluate our approach on standard GUI grounding benchmarks and demonstrate consistent improvements over baseline inference pipelines, highlighting the effectiveness of combining modality separation with region-focused reasoning.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)における自然言語クエリのグラウンド化は、視覚要素の多様性、空間的乱れ、言語のあいまいさなど、ユニークな課題を生んでいる。
本稿では,動的ビジュアルグラウンドイングとモダリティ認識最適化という2つのコア戦略を活用するGUIグラウンドングのトレーニングフリーフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックな画像として扱う代わりに、本手法は入力をテキスト要素とアイコン要素に分割し、汎用視覚言語モデルを用いて各モダリティを独立に推論する。
DiMo-GUIは、予測が不明瞭で不正確である場合、モデルの初期予測を中心とした候補焦点領域を生成し、下位領域に漸進的にズームして、基礎的な結果を洗練することによって、動的に注意を向ける。
この階層的な改善プロセスは、追加のトレーニングやアノテーションを必要とせずに、視覚的に混雑したレイアウトを曖昧にするのに役立つ。
提案手法を標準GUIグラウンドベンチマークで評価し,ベースライン推論パイプラインよりも一貫した改善を実証し,モダリティ分離と地域別推論の併用の有効性を強調した。
関連論文リスト
- Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。
提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。
我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2025-05-01T17:45:59Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces [27.84098739594353]
Graph4GUIはグラフニューラルネットワークを利用して、個々の要素の特性とセマンティックな空間的制約をレイアウトでキャプチャする。
学習された表現は、その効果を複数のタスクで示し、特に挑戦的なGUIオートコンプリートタスクで設計を生成する。
論文 参考訳(メタデータ) (2024-04-21T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。