論文の概要: Beyond Clicking:A Step Towards Generalist GUI Grounding via Text Dragging
- arxiv url: http://arxiv.org/abs/2601.06031v1
- Date: Fri, 07 Nov 2025 19:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.566569
- Title: Beyond Clicking:A Step Towards Generalist GUI Grounding via Text Dragging
- Title(参考訳): クリックを超えて:テキストドラッグによるジェネラリストGUIのグラウンディングに向けて
- Authors: Zeyi Liao, Yadong Lu, Boyu Gou, Huan Sun, Ahmed Awadallah,
- Abstract要約: テキストコンテンツの選択と操作のためにマウスをドラッグすることは、実用的なGUIシナリオにおいて一般的で重要な使用法である。
スケーラブルなパイプラインを通じて合成された161Kテキストドラッグング例のデータセットであるGUI-Dragを紹介する。
系統的かつ堅牢な評価をサポートするために,3段階のインターフェースコンテキストにまたがる5,333のサンプルを持つベンチマークであるScreenDragを構築した。
- 参考スコア(独自算出の注目度): 21.57463393334841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical user interface (GUI) grounding, the process of mapping human instructions to GUI actions, serves as a fundamental basis to autonomous GUI agents. While existing grounding models achieve promising performance to simulate the mouse click action on various click-based benchmarks, another essential mode of mouse interaction, namely dragging, remains largely underexplored. Yet, dragging the mouse to select and manipulate textual content represents a prevalent and important usage in practical GUI scenarios. To narrow this gap, we first introduce GUI-Drag, a diverse dataset of 161K text dragging examples synthesized through a scalable pipeline. To support systematic and robust evaluation, we further construct ScreenDrag, a benchmark with 5,333 examples spanning three levels of interface context, together with three dedicated metrics designed for assessing text dragging capability. Models trained on GUI-Drag with an efficient continual training strategy achieve substantial improvements on ScreenDrag, while preserving the original click-based performance on ScreenSpot, ScreenSpot-v2, and OSWorld-G. Our work encourages further research on broader GUI grounding beyond just clicking and paves way toward a truly generalist GUI grounding model. All benchmark, data, checkpoints, and code are open-sourced and available at https://osu-nlp-group.github.io/GUI-Drag.
- Abstract(参考訳): ヒューマンインストラクションをGUIアクションにマッピングするグラフィカルユーザインタフェース(GUI)グラウンドは、自律的なGUIエージェントの基本となる。
既存のグラウンドモデルは、様々なクリックベースのベンチマークでマウスクリックアクションをシミュレートする有望なパフォーマンスを達成するが、マウスインタラクションのもう一つの必須モードであるドラッグングは、ほとんど探索されていない。
しかし、テキストコンテンツの選択と操作のためにマウスをドラッグすることは、実用的なGUIシナリオにおいて、一般的で重要な使用法である。
このギャップを狭めるために、我々はまず、スケーラブルなパイプラインを通して合成された161Kテキストドラッグング例の多様なデータセットであるGUI-Dragを紹介した。
さらに,3段階のインターフェースコンテキストにまたがる5,333例のベンチマークであるScreenDragと,テキストドラッグ機能を評価するために設計された3つの専用メトリクスを構築した。
GUI-Dragでトレーニングされたモデルは、ScreenDragで大幅に改善され、ScreenSpot、ScreenSpot-v2、OSWorld-Gでオリジナルのクリックベースのパフォーマンスが保たれる。
我々の研究は、単にクリックして、本当に汎用的なGUI接地モデルへの道をたどるだけでなく、より広いGUI接地に関するさらなる研究を奨励します。
すべてのベンチマーク、データ、チェックポイント、コードは、https://osu-nlp-group.github.io/GUI-Dragで公開されている。
関連論文リスト
- Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。
本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。
実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-05T18:39:12Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - GUI-Shift: Enhancing VLM-Based GUI Agents through Self-supervised Reinforcement Learning [21.964100514016504]
GUIエージェントのための効果的なビジョンランゲージモデル(VLM)のトレーニングは通常、大規模な注釈付きデータセットに依存する。
本稿では,2つのGUI状態間の遷移を引き起こす初期動作を予測することで,VLMがGUIダイナミクスを学習する自己教師型逆動的タスクであるKステップGUIトランジションを紹介する。
本稿では,ルールベースの最適化とデータフィルタリングを組み合わせることで,VLM性能を向上させるための強化学習フレームワークであるGUI-Shiftを提案する。
論文 参考訳(メタデータ) (2025-05-18T16:34:30Z) - TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents [0.6827423171182154]
TRISHULは、総合的なGUI理解のための一般のLVLMを強化する、トレーニング不要のフレームワークである。
この結果は、ScreenSpot、VisualWebBench、AITW、Mind2WebデータセットをまたいだアクショングラウンドにおけるTRISHULの優れたパフォーマンスを示している。
GUI参照の場合、TRISHULはScreenPRベンチマークのToLエージェントを超え、堅牢で適応可能なGUI理解のための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-02-12T09:12:30Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。