論文の概要: DRS-GUI: Dynamic Region Search for Training-Free GUI Grounding
- arxiv url: http://arxiv.org/abs/2605.15542v1
- Date: Fri, 15 May 2026 02:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.151956
- Title: DRS-GUI: Dynamic Region Search for Training-Free GUI Grounding
- Title(参考訳): DRS-GUI: トレーニング不要なGUIグラウンドのための動的領域探索
- Authors: Yichao Liu, Huawen Shen, Liu Yu, Shiyu Liu, Zeyu Chen, Yu Zhou,
- Abstract要約: DRS-GUIは、GUIグラウンドティングのためのトレーニング不要な動的領域探索フレームワークである。
既存のMultimodal Large Language Modelにシームレスに統合できる。
DRS-GUIはScreenSpot-Proを一般およびGUI固有のMLLMに対して14%改善することを示した。
- 参考スコア(独自算出の注目度): 21.7258528205401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI agents powered by Multimodal Large Language Models (MLLMs) have demonstrated impressive capability in understanding and executing user instructions. However, accurately grounding instruction-relevant elements from high-resolution screenshots cluttered with irrelevant UI components remains challenging for existing approaches. Inspired by how humans dynamically adjust their perceptual scope to locate task-related regions on complex screens, we propose DRS-GUI, a training-free dynamic region search framework for GUI grounding that can be seamlessly integrated into existing MLLMs. DRS-GUI introduces a lightweight UI Perceptor that performs three human-like perceptual actions (Focus, Shift, and Scatter) to progressively explore the interface and generate region proposals. To dynamically schedule these actions, we further design an Action Planner based on Monte Carlo Tree Search (MCTS). A region quality reward is employed to evaluate and select the highly instruction-relevant region, efficiently pruning redundant UI elements. Experiments demonstrate that DRS-GUI yields a 14\% improvement on ScreenSpot-Pro for general and GUI-specific MLLMs (Qwen2.5-VL-7B and UGround-V1-7B), significantly enhancing grounding performance and generalization.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)を利用したGUIエージェントは,ユーザ命令の理解と実行に優れた能力を発揮している。
しかし、既存のアプローチでは、無関係なUIコンポーネントで散らばった高解像度のスクリーンショットから、命令関連要素を正確にグラウンドするのは難しい。
複雑な画面上でタスク関連領域を特定するために、人間の知覚スコープを動的に調整する方法に着想を得て、既存のMLLMにシームレスに統合可能なGUIグラウンドのためのトレーニング不要な動的領域探索フレームワークであるDSS-GUIを提案する。
DRS-GUIは、3つの人間のような知覚アクション(Focus、Shift、Scatter)を実行する軽量なUIパーセプタを導入し、インターフェースを徐々に探索し、領域の提案を生成する。
これらの動作を動的にスケジュールするために,モンテカルロ木探索(MCTS)に基づくアクションプランナをさらに設計する。
高命令関連領域の評価と選択には、領域品質の報酬が使用され、冗長なUI要素を効率的にプルーニングする。
DRS-GUIは、一般的なおよびGUI固有のMLLM(Qwen2.5-VL-7BとUGround-V1-7B)に対してScreenSpot-Proを14倍改善し、接地性能と一般化を著しく向上することを示した。
関連論文リスト
- GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding [44.598660921968595]
そこで我々は,GUIの効率的なグラウンド化のための注意ベースかつ座標自由な教師付き微調整フレームワークを提案する。
Gui-AIMAは、MLLMの固有のマルチモーダルアテンションとパッチワイドグラウンド信号とを一致させる。
3Bモデルの最先端性能を達成し、ScreenSpot-Proの平均精度は59.6%、OSWorld-Gでは63.8%、ScreenSpot-v2では91.5%となる。
論文 参考訳(メタデータ) (2025-11-02T05:34:21Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。
提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-08-05T10:17:38Z) - DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [53.42606072841585]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文 参考訳(メタデータ) (2025-06-12T03:13:21Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents [0.6827423171182154]
TRISHULは、総合的なGUI理解のための一般のLVLMを強化する、トレーニング不要のフレームワークである。
この結果は、ScreenSpot、VisualWebBench、AITW、Mind2WebデータセットをまたいだアクショングラウンドにおけるTRISHULの優れたパフォーマンスを示している。
GUI参照の場合、TRISHULはScreenPRベンチマークのToLエージェントを超え、堅牢で適応可能なGUI理解のための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-02-12T09:12:30Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。