論文の概要: GTA1: GUI Test-time Scaling Agent
- arxiv url: http://arxiv.org/abs/2507.05791v4
- Date: Mon, 29 Sep 2025 02:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.389211
- Title: GTA1: GUI Test-time Scaling Agent
- Title(参考訳): GTA1: GUIテストタイムスケーリングエージェント
- Authors: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Silvio Savarese, Caiming Xiong, Junnan Li,
- Abstract要約: グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
- 参考スコア(独自算出の注目度): 97.58177633084915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical user interface (GUI) agents autonomously complete tasks across platforms (\eg, Linux) by sequentially decomposing user instructions into action proposals that iteratively interact with visual elements in the evolving environment. However, two main challenges arise: i) planning (\ie, the action proposal sequence) under expansive action space, where selecting an appropriate plan is non-trivial, as many valid ones may exist; ii) accurately grounding actions in complex and high-resolution interfaces, \ie, precisely interacting with visual targets. This paper investigates the aforementioned challenges with our \textbf{G}UI \textbf{T}est-time Scaling \textbf{A}gent, namely GTA1. First, we conduct test-time scaling to select the most appropriate action proposal: at each step, multiple candidate proposals are sampled and evaluated and selected by a judge model. It trades off computation for better decision quality by concurrent sampling. Second, we propose a model that improves grounding of the selected action proposals to its corresponding visual elements. Our key insight is that reinforcement learning (RL) facilitates grounding through inherent objective alignments, rewarding successful clicks on interface elements. Experimentally, GTA1 achieves state-of-the-art performance on both grounding and agent task execution benchmarks. The code and models are released here.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)は、進化する環境における視覚的要素と反復的に相互作用するアクション提案にユーザー命令を逐次分解することで、プラットフォーム(\eg, Linux)間で自律的にタスクを完了させる。
しかし、主な課題は2つある。
i) 適切な計画を選択することは自明なものであり,かつ,有効な案が多数存在する場合において,拡大的行動空間下での計画(\ie, the action proposal sequence)
二 複雑で高解像度なインターフェースである \ie において、視覚的ターゲットと正確に相互作用するアクションを正確に接地する。
本稿では, 上記の課題を, GTA1 と呼ばれる GTA1 の時間スケーリングを用いて検討する。
まず、最も適切なアクション提案を選択するために、テスト時間スケーリングを実施し、各ステップで複数の候補提案をサンプリングし、判定モデルにより評価し、選択する。
コンカレントサンプリングによって、より良い意思決定品質を求める計算をトレードオフする。
第2に、選択されたアクション提案を対応する視覚要素に基底付けするモデルを提案する。
我々の重要な洞察は、強化学習(RL)が本質的に客観的なアライメントを基盤にして、インターフェース要素のクリックを成功させるのに役立つことである。
実験的に、GTA1はグラウンドとエージェントタスク実行ベンチマークの両方で最先端のパフォーマンスを達成する。
コードとモデルはここでリリースされている。
関連論文リスト
- GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。
提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。
我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2025-05-01T17:45:59Z) - Towards Test Generation from Task Description for Mobile Testing with Multi-modal Reasoning [8.363126388041408]
マルチモーダルなマルチエージェントフレームワークであるVisiDroidを導入し、次のアクションを反復的に決定し、画面の視覚画像を利用してタスクの完全性を検出する。
我々の評価では、VisiDroidの精度は87.3%で、最良基準線を23.5%上回っている。
論文 参考訳(メタデータ) (2025-04-22T14:02:57Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。