論文の概要: ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search
- arxiv url: http://arxiv.org/abs/2505.15259v2
- Date: Sat, 24 May 2025 15:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.354874
- Title: ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search
- Title(参考訳): ReGUIDE:空間推論と検索によるデータ効率の良いGUIグラウンド
- Authors: Hyunseok Lee, Jeonghoon Kim, Beomjun Kim, Jihoon Tack, Chansong Jo, Jaehong Lee, Cheonbok Park, Sookyo In, Jinwoo Shin, Kang Min Yoo,
- Abstract要約: ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 53.40810298627443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have enabled autonomous agents to interact with computers via Graphical User Interfaces (GUIs), where accurately localizing the coordinates of interface elements (e.g., buttons) is often required for fine-grained actions. However, this remains significantly challenging, leading prior works to rely on large-scale web datasets to improve the grounding accuracy. In this work, we propose Reasoning Graphical User Interface Grounding for Data Efficiency (ReGUIDE), a novel and effective framework for web grounding that enables MLLMs to learn data efficiently through self-generated reasoning and spatial-aware criticism. More specifically, ReGUIDE learns to (i) self-generate a language reasoning process for the localization via online reinforcement learning, and (ii) criticize the prediction using spatial priors that enforce equivariance under input transformations. At inference time, ReGUIDE further boosts performance through a test-time scaling strategy, which combines spatial search with coordinate aggregation. Our experiments demonstrate that ReGUIDE significantly advances web grounding performance across multiple benchmarks, outperforming baselines with substantially fewer training data points (e.g., only 0.2% samples compared to the best open-sourced baselines).
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)の進歩により、グラフィカルユーザインタフェース(GUI)を介して、自律エージェントがコンピュータと対話することが可能になった。
しかし、これは依然として大きな課題であり、それまでの作業は基盤精度を改善するために大規模なWebデータセットに依存していた。
本研究では,データ効率のためのReasoning Graphical User Interface Grounding for Data efficiency (ReGUIDE)を提案する。
より具体的には、ReGUIDEが学習する
一 オンライン強化学習によるローカライゼーションのための言語推論過程を自己生成すること。
(2)入力変換の下での等式を強制する空間的先行値を用いた予測を批判する。
推論時にReGUIDEは、空間探索と座標アグリゲーションを組み合わせたテスト時間スケーリング戦略により、さらに性能を向上する。
実験により、ReGUIDEは、複数のベンチマークでWebグラウンドのパフォーマンスを大幅に向上し、トレーニングデータポイントが大幅に少ないベースライン(例えば、最高のオープンソースベースラインと比較してわずか0.2%のサンプル)よりも優れています。
関連論文リスト
- What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - How Important are Data Augmentations to Close the Domain Gap for Object Detection in Orbit? [15.550663626482903]
宇宙空間におけるコンピュータビジョンの領域ギャップを埋めるためのデータ拡張の有効性について検討する。
本稿では,軌道画像に観察される視覚効果をエミュレートするために開発された2つの新しいデータ拡張法を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:24:46Z) - SPADES: A Realistic Spacecraft Pose Estimation Dataset using Event
Sensing [9.583223655096077]
実際のターゲットデータセットへのアクセスが限られているため、アルゴリズムはしばしば合成データを使用して訓練され、実際のドメインに適用される。
イベントセンシングは過去にも行われており、シミュレーションと実世界のシナリオの間のドメインギャップを減らすことが示されている。
制御された実験室で取得した実イベントデータと、同じカメラ内在性を用いてイベントデータをシミュレートした新しいデータセットSPADESを提案する。
論文 参考訳(メタデータ) (2023-11-09T12:14:47Z) - Latent Task-Specific Graph Network Simulators [16.881339139068018]
グラフネットワークシミュレータ(GNS)は、従来の物理ベースのシミュレータに代わる効率的な代替手段である。
メッシュに基づくシミュレーションをメタラーニング問題とし,最近のベイズメタラーニング手法を用いて新たなシナリオへのGASの適応性を向上させる。
提案手法の有効性を,様々な実験により検証し,確立されたベースライン法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2023-11-09T10:30:51Z) - Simple and Effective Augmentation Methods for CSI Based Indoor
Localization [37.3026733673066]
物理的考察により,チャネル状態情報に基づく屋内位置推定のための2つのアルゴリズムを提案する。
オリジナルのデータセットのサイズの10%は、オリジナルのデータセットと同じパフォーマンスを得るのに十分です。
提案手法によりさらにデータセットを増大させると、テスト精度は3倍以上に向上する。
論文 参考訳(メタデータ) (2022-11-19T20:27:46Z) - RAIS: Robust and Accurate Interactive Segmentation via Continual
Learning [16.382862088005087]
本稿では,対話型セグメンテーションと継続的学習のための堅牢で正確なアーキテクチャであるRAISを提案する。
テストセットを効率的に学習するために,グローバルパラメータとローカルパラメータを更新するための新しい最適化手法を提案する。
また,リモートセンシングと医用画像のデータセットにおけるロバスト性も示す。
論文 参考訳(メタデータ) (2022-10-20T03:05:44Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。