論文の概要: DragOn: A Benchmark and Dataset for Drag-Based GUI Interactions
- arxiv url: http://arxiv.org/abs/2606.06322v1
- Date: Thu, 04 Jun 2026 15:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.926156
- Title: DragOn: A Benchmark and Dataset for Drag-Based GUI Interactions
- Title(参考訳): DragOn: ドラッグベースのGUIインタラクションのためのベンチマークとデータセット
- Authors: Nathan Bout, Maxime Langevin, Ronan Riochet,
- Abstract要約: DragOnは、テキストハイライト、セルの選択、要素のリサイズ、スライダー操作の4つのドメインをカバーする、ドラッググラウンドのベンチマークとトレーニングデータセットである。
データセットには、286Kのトレーニングスクリーンショットと3.5Mのトレーニングタスクに加えて、2000サンプルのホールドアウト評価スイートが含まれている。
結果から,我々のデータセットは,下流コンピュータ利用タスクにおける最先端モデルの性能を向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI agents - vision-based models that control desktops, web browsers, and mobile devices through graphical user interfaces - promise to automate a wide range of digital tasks. While million-scale datasets have enabled substantial progress on click-grounding, drag grounding (e.g. drag-and-drop, swipe, highlight) data remains an order of magnitude smaller and current models fall short on complex drag-based interactions. We introduce DragOn, a drag grounding benchmark and training dataset covering four domains: text highlighting, cell selection, element resizing and slider manipulation. The dataset comprises 286K training screenshots and 3.5M training tasks, plus a 2000-example held-out evaluation suite. We evaluate proprietary (GPT, Claude) and open-weight (Qwen, Kimi, Holo) models, as well as a Qwen VLM fine-tuned on our training data. Results suggest that our dataset could improve performance of state-of-the-art models on downstream computer-use tasks.
- Abstract(参考訳): GUIエージェント - デスクトップ、Webブラウザ、モバイルデバイスをグラフィカルユーザインターフェースで制御するビジョンベースのモデル - は、幅広いデジタルタスクを自動化することを約束する。
百万規模のデータセットはクリックグラウンドの大幅な進歩を実現しているが、ドラッググラウンド(ドラッグアンドドロップ、スワイプ、ハイライトなど)のデータは桁違いに小さく、現在のモデルは複雑なドラッグベースインタラクションでは不足している。
DragOnは、テキストハイライト、セル選択、要素のリサイズ、スライダ操作の4つの領域をカバーする、ドラッググラウンドのベンチマークとトレーニングデータセットである。
データセットには、286Kのトレーニングスクリーンショットと3.5Mのトレーニングタスクに加えて、2000サンプルのホールドアウト評価スイートが含まれている。
我々は、トレーニングデータに基づいて、プロプライエタリ(GPT, Claude)とオープンウェイト(Qwen, Kimi, Holo)モデルの評価を行い、Qwen VLMを微調整した。
結果から,我々のデータセットは,下流コンピュータ利用タスクにおける最先端モデルの性能を向上させる可能性が示唆された。
関連論文リスト
- Covering Human Action Space for Computer Use: Data Synthesis and Benchmark [59.01879944842542]
コンピュータ利用エージェント(CUA)は、GPT-5.4とClaudeによって説明されているように、画面上での作業を自動化する。
しかし、複雑な低周波相互作用に対する信頼性はまだ貧弱であり、ユーザの信頼を制限している。
複雑な相互作用におけるモデルの能力を評価するための新しいベンチマークCUActSpotを提案する。
論文 参考訳(メタデータ) (2026-05-12T17:59:58Z) - GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction [34.37697471424965]
本稿では,230万のパラメータしか持たない軽量GUI素子であるGoClickについて紹介する。
実験の結果,GoClickは複数のGUI要素のグラウンドベンチマークに優れ,小さなサイズと高い推論速度を維持していることがわかった。
論文 参考訳(メタデータ) (2026-04-27T01:29:02Z) - ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.222064425122795]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。
ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (2025-12-31T16:51:14Z) - Beyond Clicking:A Step Towards Generalist GUI Grounding via Text Dragging [21.57463393334841]
テキストコンテンツの選択と操作のためにマウスをドラッグすることは、実用的なGUIシナリオにおいて一般的で重要な使用法である。
スケーラブルなパイプラインを通じて合成された161Kテキストドラッグング例のデータセットであるGUI-Dragを紹介する。
系統的かつ堅牢な評価をサポートするために,3段階のインターフェースコンテキストにまたがる5,333のサンプルを持つベンチマークであるScreenDragを構築した。
論文 参考訳(メタデータ) (2025-11-07T19:40:09Z) - GUIrilla: A Scalable Framework for Automated Desktop UI Exploration [0.0]
GUIrillaは、GUI自動化における重要なデータ収集問題に対処するために、ネイティブアクセシビリティAPIを介してアプリケーションを探索する自動化フレームワークである。
我々は1,108個のアプリケーションにまたがって,27,171個の機能的なタスクからなる大規模データセットGUIrilla-Taskを構築し,リリースする。
GUIrilla-TaskにLLMベースのエージェントをチューニングすることで、下流UIタスクのパフォーマンスが大幅に向上し、ScreenSpot Proベンチマークでの合成ベースラインよりも97%少ないデータを使用した。
論文 参考訳(メタデータ) (2025-10-16T19:03:45Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [57.371814877372515]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [45.644265025493276]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは、人気のあるモバイルアプリケーションの104万以上の高解像度スクリーンショットで構成されており、複数のレベルで注釈付けされている。
我々は、既存のデータセットの一般的な設定を補完し、より教育的かつ詳細な視点からこのデータセットを開発する。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。