論文の概要: UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics
- arxiv url: http://arxiv.org/abs/2604.02345v1
- Date: Wed, 11 Feb 2026 17:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.313536
- Title: UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics
- Title(参考訳): UI-Oceanus: 合成環境ダイナミクスを用いたGUIエージェントのスケーリング
- Authors: Mengzhou Wu, Yuzhe Guo, Yuan Cao, Haochuan Lu, Songhe Zhu, Pingzhe Qu, Xin Chen, Kang Qin, Zhongpu Wang, Xiaode Zhang, Xinyi Wang, Wei Dai, Gang Cao, Yuetang Deng, Zhi Gong, Dezhi Ran, Linyi Li, Wei Yang, Tao Xie,
- Abstract要約: 本稿では,ハイレベルな軌道の模倣からインタラクション物理の習得に焦点を移すフレームワークを提案する。
UI-Oceanusは、低コストの自律探査を高密度生成監視に変換することで、堅牢な内部世界モデルを構築する。
- 参考スコア(独自算出の注目度): 25.60139960043983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling generalist GUI agents is hindered by the data scalability bottleneck of expensive human demonstrations and the "distillation ceiling" of synthetic teacher supervision. To transcend these limitations, we propose UI-Oceanus, a framework that shifts the learning focus from mimicking high-level trajectories to mastering interaction physics via ground-truth environmental feedback. Through a systematic investigation of self-supervised objectives, we identify that forward dynamics, defined as the generative prediction of future interface states, acts as the primary driver for scalability and significantly outweighs inverse inference. UI-Oceanus leverages this insight by converting low-cost autonomous exploration, which is verified directly by system execution, into high-density generative supervision to construct a robust internal world model. Experimental evaluations across a series of models demonstrate the decisive superiority of our approach: models utilizing Continual Pre-Training (CPT) on synthetic dynamics outperform non-CPT baselines with an average success rate improvement of 7% on offline benchmarks, which amplifies to a 16.8% gain in real-world online navigation. Furthermore, we observe that navigation performance scales with synthetic data volume. These results confirm that grounding agents in forward predictive modeling offers a superior pathway to scalable GUI automation with robust cross-domain adaptability and compositional generalization.
- Abstract(参考訳): ジェネラリストGUIエージェントのスケーリングは、高価な人体デモのデータスケーラビリティのボトルネックと、合成教師監督の「蒸留天井」によって妨げられている。
これらの制限を超越するために,高レベルの軌道を模倣することから,地道的な環境フィードバックを通じて相互作用物理をマスターするフレームワークであるUI-Oceanusを提案する。
自己教師対象の体系的な調査を通じて,将来的なインターフェース状態の生成予測として定義されたフォワードダイナミクスがスケーラビリティの第一の要因となり,逆推論よりもはるかに優れていることを確認した。
UI-Oceanusはこの洞察を利用して、システム実行によって直接検証される低コストの自律探査を、堅牢な内部世界モデルを構築するための高密度生成監視に変換する。
連続的事前学習(CPT)を合成力学に利用したモデルは、オフラインベンチマークの平均成功率が7%向上し、実際のオンラインナビゲーションでは16.8%向上した。
さらに、ナビゲーション性能は合成データ量とともにスケールする。
これらの結果は、フォワード予測モデリングにおける接地エージェントが、堅牢なクロスドメイン適応性と構成一般化を備えたスケーラブルGUI自動化への優れた経路を提供することを確認した。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Automatic Speech Recognition in the Modern Era: Architectures, Training, and Evaluation [0.0]
音声認識は、ディープラーニングの進歩によって、過去10年間に大きく変化してきた。
この調査は、従来のハイブリッドシステムから、現在支配的なエンドツーエンドのニューラルアーキテクチャへの進化をグラフ化して、ASRの現代を包括的に概観する。
論文 参考訳(メタデータ) (2025-10-11T05:38:45Z) - Orcust: Stepwise-Feedback Reinforcement Learning for GUI Agent [12.334063115362758]
Orcust は Principle-Constrained Reward Modeling と Online VM-Grounded Trajectory Construction を統合したフレームワークである。
OVTCは機器化された仮想マシンをスピンアップして、構造化GUIインタラクション軌跡を自律的に収集する。
論文 参考訳(メタデータ) (2025-09-22T15:40:31Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - StyleDrive: Towards Driving-Style Aware Benchmarking of End-To-End Autonomous Driving [7.525510086747996]
エンドツーエンド自動運転(E2EAD)の文脈では、パーソナライゼーションはほとんど見過ごされている。
パーソナライズされたE2EAD用に明示的にキュレートされた,最初の大規模実世界のデータセットを紹介する。
パーソナライズされたE2EADモデルを体系的に評価するための最初の標準ベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:48:38Z) - Towards Human-Like Trajectory Prediction for Autonomous Driving: A Behavior-Centric Approach [22.81464823797471]
HiT(Human-like Trajectory Prediction, Human-like Trajectory Prediction)は、行動認識モジュールと動的集中度を組み込むことで、軌道予測を強化するために設計された新しいモデルである。
HiTの性能を評価するために,多種多様な実世界のデータセットを用いて広範な実験を行った。
論文 参考訳(メタデータ) (2025-05-27T05:04:01Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。