論文の概要: GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
- arxiv url: http://arxiv.org/abs/2511.00810v1
- Date: Sun, 02 Nov 2025 05:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.94564
- Title: GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
- Title(参考訳): GUI-AIMA:GUIグラウンディングのためのコンテキストアンカーによる本質的なマルチモーダルアテンションの調整
- Authors: Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang,
- Abstract要約: そこで我々は,GUIの効率的なグラウンド化のための注意ベースかつ座標自由な教師付き微調整フレームワークを提案する。
Gui-AIMAは、MLLMの固有のマルチモーダルアテンションとパッチワイドグラウンド信号とを一致させる。
3Bモデルの最先端性能を達成し、ScreenSpot-Proの平均精度は58.6%、OSWorld-Gでは62.2%に達した。
- 参考スコア(独自算出の注目度): 44.598660921968595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical user interface (GUI) grounding is a key function of computer-use agents, which maps natural-language instructions to actionable screen regions. Existing approaches based on Multimodal Large Language Models (MLLMs) typically formulate it as a text-based coordinate generation task, yet directly generating precise coordinates from visual inputs remains challenging and computationally intensive. An intuitive way to implement GUI grounding is to first select visual patches relevant to the instructions and then determine the precise click location within those patches. Based on the observations that general MLLMs have some native grounding capability, nested within their attentions, we propose GUI-AIMA, an attention-based and coordinate-free supervised fine-tuning framework for efficient GUI grounding. GUI-AIMA aligns the intrinsic multimodal attention of MLLMs with patch-wise grounding signals. These signals are calculated adaptively for diverse user instructions by multi-head aggregation on simplified query-visual attention matrices. Besides, its coordinate-free manner can easily integrate a plug-and-play zoom-in stage. GUI-AIMA-3B was trained with only 85k screenshots, demonstrating exceptional data efficiency and verifying that light training can trigger the native grounding capability of MLLMs. It achieves state-of-the-art performance among 3B models, attaining an average accuracy of 58.6% on ScreenSpot-Pro and 62.2% on OSWorld-G. Project page: https://github.com/sjz5202/GUI-AIMA
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)グラウンドは、自然言語命令を動作可能なスクリーン領域にマッピングするコンピュータ利用エージェントの重要な機能である。
既存のMLLM(Multimodal Large Language Models)に基づくアプローチは、テキストベースの座標生成タスクとして定式化されているが、視覚入力から正確な座標を直接生成することは困難であり、計算集約的である。
GUIグラウンディングを実装する直感的な方法は、まず命令に関連する視覚的パッチを選択し、そのパッチ内の正確なクリック位置を決定することである。
一般的なMLLMは、注意の中にネストしたネイティブな接地能力を持つという観測に基づいて、より効率的なGUI接地のための注意ベースで座標のない教師なし微調整フレームワークであるGUI-AIMAを提案する。
GUI-AIMAは、MLLMの固有のマルチモーダルアテンションとパッチワイドグラウンド信号とを一致させる。
これらの信号は、簡易なクエリ・ビジュアル・アテンション行列に基づく多頭部アグリゲーションにより、多様なユーザ・インストラクションに対して適応的に計算される。
さらに、その座標自由な方法では、プラグイン・アンド・プレイのズームインステージを容易に統合できる。
GUI-AIMA-3Bは85kのスクリーンショットで訓練され、例外的なデータ効率を示し、光のトレーニングがMLLMのネイティブグラウンド機能を引き起こすことを検証した。
3Bモデルの最先端性能を達成し、ScreenSpot-Proの平均精度は58.6%、OSWorld-Gでは62.2%に達した。
プロジェクトページ:https://github.com/sjz5202/GUI-AIMA
関連論文リスト
- \textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding [37.69847052653875]
GUI-Spotlightは画像グラウンド推論のために訓練されたモデルである。
画面の関連領域へのフォーカスを反復的に絞り、視覚的グラウンドの精度を大幅に向上させる。
ScreenSpot-Proベンチマークでは、18.5KのトレーニングサンプルでトレーニングされたGUI-Spotlightが52.8%の精度を実現している。
論文 参考訳(メタデータ) (2025-10-05T05:15:45Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - Learning GUI Grounding with Spatial Reasoning from Visual Feedback [46.66862168972301]
我々は,多段階オンライン強化学習を用いたGUIグラウンドモデル GUI-Cursor を訓練する。
実験の結果、Qwen2.5-VL-7Bに基づくGUI-Cursorは、GUIグラウンドの精度を向上し、最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2025-09-25T20:38:01Z) - DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [53.42606072841585]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文 参考訳(メタデータ) (2025-06-12T03:13:21Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents [0.6827423171182154]
TRISHULは、総合的なGUI理解のための一般のLVLMを強化する、トレーニング不要のフレームワークである。
この結果は、ScreenSpot、VisualWebBench、AITW、Mind2WebデータセットをまたいだアクショングラウンドにおけるTRISHULの優れたパフォーマンスを示している。
GUI参照の場合、TRISHULはScreenPRベンチマークのToLエージェントを超え、堅牢で適応可能なGUI理解のための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-02-12T09:12:30Z) - Attention-driven GUI Grounding: Leveraging Pretrained Multimodal Large Language Models without Fine-Tuning [29.47233232259932]
本研究では,事前学習されたMLLMの注意パターンを利用して,追加の微調整を必要とせずにタスクを遂行する,チューニング不要な意図駆動グラウンドリング(TAG)手法を提案する。
本手法は,テキストローカライゼーションにおいて顕著な成功を収めたチューニング方式に匹敵する性能を実現する。
注意マップに基づく接地手法は,MiniCPM-Llama3-V 2.5の直接位置推定よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-12-14T14:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。