論文の概要: Computer-Using World Model
- arxiv url: http://arxiv.org/abs/2602.17365v1
- Date: Thu, 19 Feb 2026 13:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.048332
- Title: Computer-Using World Model
- Title(参考訳): コンピュータ利用世界モデル
- Authors: Yiming Guan, Rui Yu, John Zhang, Lu Wang, Chaoyun Zhang, Liqun Li, Bo Qiao, Si Qin, He Huang, Fangkai Yang, Pu Zhao, Lukas Wutschitz, Samuel Kessler, Huseyin A Inan, Robert Sim, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang,
- Abstract要約: 我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。
CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。
テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
- 参考スコア(独自算出の注目度): 58.59112582915026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.
- Abstract(参考訳): 複雑なソフトウェア環境で動作しているエージェントは、アクションの結果を推論する恩恵を受ける。
この課題は、実際の実行が反現実的な探索をサポートしておらず、完全にデジタルで決定論的であるにもかかわらず、大規模な試行錯誤学習と計画的計画が不可能なコンピュータ利用シナリオにおいて特に深刻である。
デスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を導入する。
CUWMはUIダイナミクスの2段階の分解を採用しており、まずエージェント関連の状態変化のテキスト記述を予測し、次にこれらの変更を視覚的に実現して次のスクリーンショットを合成する。
CUWMは、実際のMicrosoft Officeアプリケーションと対話するエージェントから収集されたオフラインUI遷移に基づいてトレーニングされており、さらに、テキスト遷移予測とコンピュータ使用環境の構造的要件を整合させる軽量な強化学習ステージで洗練されている。
テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
さまざまなOfficeタスクにおいて、ワールドモデルによるテストタイムスケーリングは、意思決定の品質と実行の堅牢性を改善します。
関連論文リスト
- ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Watch and Learn: Learning to Use Computers from Online Videos [50.10702690339142]
Watch & Learn(W&L)は、インターネット上で簡単に利用できる人間のデモビデオを、大規模に実行可能なUIトラジェクトリに変換するフレームワークである。
我々は,タスク対応ビデオ検索を用いた逆動的ラベリングパイプラインを開発し,生のウェブビデオから53k以上の高品質なトラジェクトリを生成する。
これらの結果から,実世界展開に向けたCUAの実践的かつスケーラブルな基盤として,Webスケールの人間デモビデオが注目されている。
論文 参考訳(メタデータ) (2025-10-06T10:29:00Z) - MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。
それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。
MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文 参考訳(メタデータ) (2025-05-29T16:08:51Z) - UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction [16.731754927372585]
UI-Visionは、コンピュータ使用エージェントのオフラインかつきめ細かい評価のための、最初の包括的なライセンス許容ベンチマークである。
オンラインベンチマークとは異なり、UI-Visionは人間のデモの密集した高品質なアノテーションを提供する。
評価の結果,UI-TARS-72Bのような最先端モデルの限界が明らかになった。
論文 参考訳(メタデータ) (2025-03-19T19:26:17Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。