Fugu-MT 論文翻訳(概要): ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search

論文の概要: ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search

arxiv url: http://arxiv.org/abs/2505.15259v2
Date: Sat, 24 May 2025 15:08:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 14:32:55.354874
Title: ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search
Title（参考訳）: ReGUIDE:空間推論と検索によるデータ効率の良いGUIグラウンド
Authors: Hyunseok Lee, Jeonghoon Kim, Beomjun Kim, Jihoon Tack, Chansong Jo, Jaehong Lee, Cheonbok Park, Sookyo In, Jinwoo Shin, Kang Min Yoo,
Abstract要約: ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
参考スコア（独自算出の注目度）: 53.40810298627443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have enabled autonomous agents to interact with computers via Graphical User Interfaces (GUIs), where accurately localizing the coordinates of interface elements (e.g., buttons) is often required for fine-grained actions. However, this remains significantly challenging, leading prior works to rely on large-scale web datasets to improve the grounding accuracy. In this work, we propose Reasoning Graphical User Interface Grounding for Data Efficiency (ReGUIDE), a novel and effective framework for web grounding that enables MLLMs to learn data efficiently through self-generated reasoning and spatial-aware criticism. More specifically, ReGUIDE learns to (i) self-generate a language reasoning process for the localization via online reinforcement learning, and (ii) criticize the prediction using spatial priors that enforce equivariance under input transformations. At inference time, ReGUIDE further boosts performance through a test-time scaling strategy, which combines spatial search with coordinate aggregation. Our experiments demonstrate that ReGUIDE significantly advances web grounding performance across multiple benchmarks, outperforming baselines with substantially fewer training data points (e.g., only 0.2% samples compared to the best open-sourced baselines).
Abstract（参考訳）: 近年のMLLM(Multimodal Large Language Models)の進歩により、グラフィカルユーザインタフェース(GUI)を介して、自律エージェントがコンピュータと対話することが可能になった。しかし、これは依然として大きな課題であり、それまでの作業は基盤精度を改善するために大規模なWebデータセットに依存していた。本研究では,データ効率のためのReasoning Graphical User Interface Grounding for Data efficiency (ReGUIDE)を提案する。より具体的には、ReGUIDEが学習する一オンライン強化学習によるローカライゼーションのための言語推論過程を自己生成すること。 (2)入力変換の下での等式を強制する空間的先行値を用いた予測を批判する。推論時にReGUIDEは、空間探索と座標アグリゲーションを組み合わせたテスト時間スケーリング戦略により、さらに性能を向上する。実験により、ReGUIDEは、複数のベンチマークでWebグラウンドのパフォーマンスを大幅に向上し、トレーニングデータポイントが大幅に少ないベースライン(例えば、最高のオープンソースベースラインと比較してわずか0.2%のサンプル)よりも優れています。

関連論文リスト

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization [41.584851150085036]
根本的な課題は、自然言語の指示をしっかりと基礎づけることである。これは正確な空間アライメントを必要とし、各要素の座標を正確に特定する。本稿では,新たな政策最適化フレームワークである適応探索政策最適化(AEPO)を提案する。 AEPOでトレーニングされたモデルであるInfiGUI-G1-3BとInfiGUI-G1-7Bは、新しい最先端の結果を確立します。
論文参考訳（メタデータ） (2025-08-07T17:49:56Z)
LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization [58.65395773049273]
位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。 LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
論文参考訳（メタデータ） (2025-06-11T03:43:30Z)
What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文参考訳（メタデータ） (2025-01-28T14:12:32Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
How Important are Data Augmentations to Close the Domain Gap for Object Detection in Orbit? [15.550663626482903]
宇宙空間におけるコンピュータビジョンの領域ギャップを埋めるためのデータ拡張の有効性について検討する。本稿では,軌道画像に観察される視覚効果をエミュレートするために開発された2つの新しいデータ拡張法を提案する。
論文参考訳（メタデータ） (2024-10-21T08:24:46Z)
SPADES: A Realistic Spacecraft Pose Estimation Dataset using Event Sensing [9.583223655096077]
実際のターゲットデータセットへのアクセスが限られているため、アルゴリズムはしばしば合成データを使用して訓練され、実際のドメインに適用される。イベントセンシングは過去にも行われており、シミュレーションと実世界のシナリオの間のドメインギャップを減らすことが示されている。制御された実験室で取得した実イベントデータと、同じカメラ内在性を用いてイベントデータをシミュレートした新しいデータセットSPADESを提案する。
論文参考訳（メタデータ） (2023-11-09T12:14:47Z)
Latent Task-Specific Graph Network Simulators [16.881339139068018]
グラフネットワークシミュレータ(GNS)は、従来の物理ベースのシミュレータに代わる効率的な代替手段である。メッシュに基づくシミュレーションをメタラーニング問題とし,最近のベイズメタラーニング手法を用いて新たなシナリオへのGASの適応性を向上させる。提案手法の有効性を,様々な実験により検証し,確立されたベースライン法と同等以上の性能を示した。
論文参考訳（メタデータ） (2023-11-09T10:30:51Z)
Simple and Effective Augmentation Methods for CSI Based Indoor Localization [37.3026733673066]
物理的考察により,チャネル状態情報に基づく屋内位置推定のための2つのアルゴリズムを提案する。オリジナルのデータセットのサイズの10%は、オリジナルのデータセットと同じパフォーマンスを得るのに十分です。提案手法によりさらにデータセットを増大させると、テスト精度は3倍以上に向上する。
論文参考訳（メタデータ） (2022-11-19T20:27:46Z)
RAIS: Robust and Accurate Interactive Segmentation via Continual Learning [16.382862088005087]
本稿では,対話型セグメンテーションと継続的学習のための堅牢で正確なアーキテクチャであるRAISを提案する。テストセットを効率的に学習するために,グローバルパラメータとローカルパラメータを更新するための新しい最適化手法を提案する。また,リモートセンシングと医用画像のデータセットにおけるロバスト性も示す。
論文参考訳（メタデータ） (2022-10-20T03:05:44Z)
CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-05-30T13:34:46Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。