Fugu-MT 論文翻訳(概要): R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding

論文の概要: R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding

arxiv url: http://arxiv.org/abs/2507.05673v1
Date: Tue, 08 Jul 2025 04:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:37.567682
Title: R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding
Title（参考訳）: R-VLM: 精密GUI接地のための領域認識視覚言語モデル
Authors: Joonhyung Park, Peng Tang, Sagnik Das, Srikar Appalaraju, Kunwar Yashraj Singh, R. Manmatha, Shabnam Ghadar,
Abstract要約: GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。 R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
参考スコア（独自算出の注目度）: 18.100091500983044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual agent models for automating human activities on Graphical User Interfaces (GUIs) have emerged as a promising research direction, driven by advances in large Vision Language Models (VLMs). A critical challenge in GUI automation is the precise grounding of interface elements across diverse platforms. Existing vision-only GUI agents directly ground elements from large and cluttered screenshots, requiring them to process substantial irrelevant information that compromises their accuracy. In addition, these approaches typically employ basic cross-entropy loss for learning grounding objectives, which fails to effectively capture grounding quality compared to established object detection metrics like Intersection-over-Union (IoU). To address these issues, we introduce R-VLM, a novel GUI grounding approach that leverages zoomed-in region proposals for precise element localization. We also propose an IoU-aware objective function that facilitates model convergence toward high IoU predictions. Our approach bridges the gap between VLMs and conventional object detection techniques, improving the state-of-the-art grounding accuracy by 13% across diverse GUI platforms on the GUI grounding benchmarks ScreenSpot and AgentStudio. In addition, our R-VLM approach shows 3.2-9.7% absolute accuracy improvements in GUI navigation tasks on the AITW and Mind2Web benchmarks.
Abstract（参考訳）: グラフィカルユーザインタフェース(GUI)上での人間の活動を自動化する視覚エージェントモデルは、大きな視覚言語モデル(VLM)の進歩によって駆動される有望な研究方向として登場した。 GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地し、精度を損なうような無関係な情報を処理する必要がある。さらに、これらの手法は、通常、基礎的エントロピー損失を学習目的に用いており、IoU(Intersection-over-Union)のような確立されたオブジェクト検出指標と比較して、基礎的品質を効果的に捉えることができない。これらの問題に対処するために,ズームインされた領域の提案を正確な要素ローカライズに活用する新しいGUI基盤手法であるR-VLMを導入する。また、高IoU予測に対するモデル収束を容易にするIoU対応目的関数を提案する。 VLMと従来のオブジェクト検出技術とのギャップを埋め、GUIグラウンドベンチマークであるScreenSpotとAgentStudioのGUIプラットフォーム上で、最先端の接地精度を13%向上させる。さらに、我々のR-VLMアプローチでは、AITWおよびMind2WebベンチマークにおけるGUIナビゲーションタスクの絶対精度が3.2-9.7%向上している。

関連論文リスト

Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文参考訳（メタデータ） (2025-08-07T17:54:27Z)
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。 GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2025-06-03T17:59:08Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-05-21T08:36:18Z)
GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文参考訳（メタデータ） (2025-05-19T08:29:05Z)
Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2025-05-01T17:45:59Z)
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [16.72683291432717]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文参考訳（メタデータ） (2025-04-14T17:45:54Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文参考訳（メタデータ） (2024-11-18T05:47:12Z)
Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces [1.3107174618549584]
Instruction Visual Grounding (IVG) はグラフィカルユーザインタフェース (GUI) におけるオブジェクト識別のためのマルチモーダルアプローチである本稿では、オブジェクト検出モデルであるLarge Language Model(LLM)とOCRモジュールを組み合わせたIVGocrと、エンド・ツー・エンドのグラウンド化にマルチモーダルアーキテクチャを用いたIVGdirectを提案する。私たちの最終テストデータセットは、将来の研究をサポートするために公開されています。
論文参考訳（メタデータ） (2024-05-05T19:10:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。