論文の概要: TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution
- arxiv url: http://arxiv.org/abs/2602.09662v1
- Date: Tue, 10 Feb 2026 11:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.506109
- Title: TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution
- Title(参考訳): TreeCUA: ツリー構造化検証可能な進化によるGUI自動化の効率的なスケーリング
- Authors: Deyang Jiang, Jing Huang, Xuanle Zhao, Lei Chen, Liming Zheng, Fanfan Liu, Haibo Qiu, Peng Shi, Zhixiong Zeng,
- Abstract要約: そこで本研究では,木構造検証によるGUI自動化を効果的にスケールするために,TreeCUAを提案する。
効率を向上させるため、重複探索ノードの保存と再生を行う新しいツリーベースのトポロジーを考案した。
我々は、低品質な生成を避けるため、世界知識ガイダンスとグローバルメモリバックトラックを開発する。
- 参考スコア(独自算出の注目度): 16.67253530178955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (\emph{i.e.}, trajectory difficulty) and breadth (\emph{i.e.}, trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)にはGUI自動化の効果的スケーリングが不可欠であるが、既存の作業では、より高度なデータ収集を必要とするより重要なGUI計画ではなく、GUIグラウンディングのスケーリングに重点を置いている。
実際には、アプリケーション/デスクトップ/WebページにわたるCUAの探索プロセスは、通常、ツリー構造に従っており、初期の機能的なエントリポイントは、より頻繁に探索されることが多い。
このように、大規模軌跡をツリー構造に整理することで、データコストを削減し、GUI計画のデータスケーリングを合理化することができる。
本研究では,木構造検証可能な進化によってGUIの自動化を効率的にスケールするTreeCUAを提案する。
本稿では,環境を探索し,動作を検証し,軌道を要約し,品質を評価し,高品質でスケーラブルなGUI軌道を生成するための多エージェント協調フレームワークを提案する。
効率を向上させるために、重複探索ノードを保存・再生する新しいツリーベースのトポロジーを考案し、深さ(軌道難易度)と幅(軌道多様性度)のバランスをとる適応探索アルゴリズムを設計する。
さらに、低品質な生成を避けるため、世界知識ガイダンスとグローバルメモリバックトラックを開発する。
最後に,木ノード情報から自然にTreeCUA-DPO法を拡張して提案し,隣接トラジェクトリの分岐情報を参照してGUI計画能力を向上する。
実験結果から、TreeCUAとTreeCUA-DPOは大幅に改善され、OOD(out-of-domain)研究はさらに強力な一般化が示されている。
すべての軌道ノード情報とコードはhttps://github.com/UITron-hub/TreeCUA.comで入手できる。
関連論文リスト
- GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning [11.909652592163896]
GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。
GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
論文 参考訳(メタデータ) (2025-09-19T08:09:18Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。
本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。
SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-22T16:01:06Z) - Training-Free Guidance Beyond Differentiability: Scalable Path Steering with Tree Search in Diffusion and Flow Models [39.13996838237359]
TreeG: Tree Search-Based Path Steering Guidanceを提案する。
TreeGは、各ステップで候補を提案し、評価し、選択することで、トレーニング不要のガイダンスのための統一されたフレームワークを提供する。
実験の結果,TreeGはシンボリック・ミュージック・ジェネレーション,小分子設計,エンハンサーDNA設計において,トップ・ガイダンス・ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-02-17T04:20:39Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees [50.78679002846741]
タスクツリーを用いたグラフのクロスタスク一般化のための新しい手法を提案する。
本稿では,グラフニューラルネットワーク(GNN)を多種多様なタスクツリー上で事前学習することにより,伝達可能な知識を誘導することを示す。
これにより、最小限の微調整で下流タスクに効率的に適応できる。
論文 参考訳(メタデータ) (2024-12-21T02:07:43Z) - A Tree-structured Transformer for Program Representation Learning [27.31416015946351]
プログラムには長期/グローバルな依存関係が広く存在し、ほとんどのニューラルネットワークはこれらの依存関係をキャプチャできない。
本稿では,この制限を克服することを目的とした,新しい木構造ニューラルネットワークであるTree-Transformerを提案する。
ボトムアップとトップダウンの伝搬を組み合わせることで、Tree-Transformerはグローバルコンテキストと有意義なノード機能の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-18T05:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。