論文の概要: Towards GUI Agents: Vision-Language Diffusion Models for GUI Grounding
- arxiv url: http://arxiv.org/abs/2603.26211v1
- Date: Fri, 27 Mar 2026 09:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.424505
- Title: Towards GUI Agents: Vision-Language Diffusion Models for GUI Grounding
- Title(参考訳): GUIエージェントに向けて:GUI接地のための視覚・言語拡散モデル
- Authors: Shrinidhi Kumbhar, Haofu Liao, Srikar Appalaraju, Kunwar Yashraj Singh,
- Abstract要約: グラフィカルユーザインタフェースグラウンドリングのためのARモデルの代替として,個別の視覚言語モデルが有効であるかどうかを評価する。
我々はLLaDA-Vを単一ターン動作とバウンディングボックス予測に適用し、マルチモーダル入力からテキスト生成としてタスクをフレーミングする。
ハイブリッドマスキングを用いた適応拡散モデルが線形マスキングの変種より一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 11.148970971741273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) vision-language models (VLMs) have long dominated multimodal understanding, reasoning, and graphical user interface (GUI) grounding. Recently, discrete diffusion vision-language models (DVLMs) have shown strong performance in multimodal reasoning, offering bidirectional attention, parallel token generation, and iterative refinement. However, their potential for GUI grounding remains unexplored. In this work, we evaluate whether discrete DVLMs can serve as a viable alternative to AR models for GUI grounding. We adapt LLaDA-V for single-turn action and bounding-box prediction, framing the task as text generation from multimodal input. To better capture the hierarchical structure of bounding-box geometry, we propose a hybrid masking schedule that combines linear and deterministic masking, improving grounding accuracy by up to 6.1 points in Step Success Rate (SSR) over the GUI-adapted LLaDA-V trained with linear masking. Evaluations on four datasets spanning web, desktop, and mobile interfaces show that the adapted diffusion model with hybrid masking consistently outperforms the linear-masked variant and performs competitively with autoregressive counterparts despite limited pretraining. Systematic ablations reveal that increasing diffusion steps, generation length, and block length improves accuracy but also increases latency, with accuracy plateauing beyond a certain number of diffusion steps. Expanding the training data with diverse GUI domains further reduces latency by about 1.3 seconds and improves grounding accuracy by an average of 20 points across benchmarks. These results demonstrate that discrete DVLMs are a promising modeling framework for GUI grounding and represent an important step toward diffusion-based GUI agents.
- Abstract(参考訳): 自動回帰(AR)視覚言語モデル(VLM)は、長年にわたりマルチモーダル理解、推論、グラフィカルユーザインタフェース(GUI)のグラウンディングを支配してきた。
近年、離散拡散視覚言語モデル (DVLM) は多モード推論において強い性能を示し、双方向の注意、並列トークン生成、反復的改善を実現している。
しかし、GUIの基盤化の可能性はまだ解明されていない。
本稿では,GUI接地のためのARモデルの代替として,離散DVLMが有効であるかどうかを評価する。
我々はLLaDA-Vを単一ターン動作とバウンディングボックス予測に適用し、マルチモーダル入力からテキスト生成としてタスクをフレーミングする。
線形マスキングと決定論的マスキングを組み合わせたハイブリッドマスキングスケジュールを提案し,GUI適応LLaDA-V上でのステップ成功率(SSR)を最大6.1ポイント向上する。
Web,デスクトップ,モバイルインターフェースにまたがる4つのデータセットの評価から,ハイブリッドマスキングによる適応拡散モデルは,事前トレーニングが限定されているにもかかわらず,線形マスキングの変種よりも一貫して優れており,自己回帰型と競合する。
システマティックアブレーションにより,拡散段数,生成長,ブロック長の増大により精度は向上するが,一定の拡散段数を超える精度で遅延も増大することがわかった。
トレーニングデータを多様なGUIドメインで拡張することで、レイテンシが約1.3秒短縮され、ベンチマーク全体で平均20ポイントのグラウンド精度が向上する。
これらの結果から, 離散DVLMはGUIグラウンディングのための有望なモデリングフレームワークであり, 拡散型GUIエージェントへの重要な一歩であることが示された。
関連論文リスト
- SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing [13.521180435948791]
本稿ではGUI知覚のための新しいエンドツーエンドフレームワークを提案する。
確率ベース離散モデリングの代わりに、座標の連続モデリングを行う。
これにより、離散出力特性に固有の制限を効果的に緩和する。
論文 参考訳(メタデータ) (2025-09-05T08:24:12Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Improved GUI Grounding via Iterative Narrowing [0.03375622857152329]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。