論文の概要: MEGA-GUI: Multi-stage Enhanced Grounding Agents for GUI Elements
- arxiv url: http://arxiv.org/abs/2511.13087v1
- Date: Mon, 17 Nov 2025 07:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.904741
- Title: MEGA-GUI: Multi-stage Enhanced Grounding Agents for GUI Elements
- Title(参考訳): MEGA-GUI:GUI要素のための多段階強化接地エージェント
- Authors: SeokJoo Kwak, Jihoon Kim, Boyoun Kim, Jung Jae Yoon, Wooseok Jang, Jeonghoon Hong, Jaeho Yang, Yeong-Dae Kwon,
- Abstract要約: MEGA-GUIは、グラウンディングを粗い関心領域(ROI)選択ときめ細かい要素グラウンディングに分離する多段階フレームワークである。
MEGA-GUIは、空間的希釈を緩和する双方向ROIズームアルゴリズムと、意味的曖昧さを低減する文脈対応書き換えエージェントを備えている。
視覚的に密度の高いScreenSpot-Proベンチマークでは、MEGA-GUIの精度は73.18%に達し、セマンティックに複雑なOSWorld-Gベンチマークでは68.63%に達した。
- 参考スコア(独自算出の注目度): 7.2364254826655925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical User Interface (GUI) grounding - the task of mapping natural language instructions to screen coordinates - is essential for autonomous agents and accessibility technologies. Existing systems rely on monolithic models or one-shot pipelines that lack modularity and fail under visual clutter and ambiguous instructions. We introduce MEGA-GUI, a multi-stage framework that separates grounding into coarse Region-of-Interest (ROI) selection and fine-grained element grounding, orchestrated by specialized vision-language agents. MEGA-GUI features a bidirectional ROI zoom algorithm that mitigates spatial dilution and a context-aware rewriting agent that reduces semantic ambiguity. Our analysis reveals complementary strengths and weaknesses across vision-language models at different visual scales, and we show that leveraging this modular structure achieves consistently higher accuracy than monolithic approaches. On the visually dense ScreenSpot-Pro benchmark, MEGA-GUI attains 73.18% accuracy, and on the semantically complex OSWorld-G benchmark it reaches 68.63%, surpassing previously reported results. Code and the Grounding Benchmark Toolkit (GBT) are available at https://github.com/samsungsds-research-papers/mega-gui.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)基盤 - 自然言語命令を画面座標にマッピングするタスク - は、自律エージェントやアクセシビリティ技術にとって不可欠である。
既存のシステムはモノリシックなモデルやワンショットパイプラインに依存しており、モジュラリティが欠如し、視覚的に乱雑であいまいな指示の下で失敗する。
本稿では,多段階フレームワークであるMEGA-GUIについて紹介する。
MEGA-GUIは、空間的希釈を緩和する双方向ROIズームアルゴリズムと、意味的曖昧さを低減する文脈対応書き換えエージェントを備えている。
本分析では,視覚モデル間の相補的な長所と短所を異なる視覚スケールで明らかにし,このモジュラ構造を活用することで,モノリシックなアプローチよりも一貫した精度が得られることを示した。
視覚的に密度の高いScreenSpot-Proベンチマークでは、MEGA-GUIの精度は73.18%に達し、セマンティックに複雑なOSWorld-Gベンチマークでは68.63%に達した。
Code と Grounding Benchmark Toolkit (GBT) は https://github.com/samsungsds-research-papers/mega-gui で公開されている。
関連論文リスト
- MGA: Memory-Driven GUI Agent for Observation-Centric Interaction [30.45490249299358]
メモリ駆動型GUIエージェント(MGA)を導入し、まず観察の原理に基づいてGUIインタラクションをリフレームし、次に決定する。
MGAは最先端のベースラインに比べてロバスト性、一般化、効率性が著しく向上する。
論文 参考訳(メタデータ) (2025-10-28T08:19:58Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding [51.497245303008015]
グラフィカルユーザインタフェース (GUI) は、自然言語の命令を、自律的なインタラクションのための正確なインターフェース位置にマッピングする。
ターゲット要素を中心としたガウス分布を自然に形成する人間のクリック行動に動機付けられ,GUIガウスグラウンドング・リワード(GUIガウスグラウンドディング・リワード)を導入する。
GUI-G$2$のUI-TARS-72BはScreenSpot-Proで24.7%向上した。
論文 参考訳(メタデータ) (2025-07-21T17:53:42Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [57.371814877372515]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z) - GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。
従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。
本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。