論文の概要: Towards General Computer Control with Hierarchical Agents and Multi-Level Action Spaces
- arxiv url: http://arxiv.org/abs/2509.18230v1
- Date: Mon, 22 Sep 2025 13:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.503639
- Title: Towards General Computer Control with Hierarchical Agents and Multi-Level Action Spaces
- Title(参考訳): 階層型エージェントとマルチレベルアクション空間を用いた汎用計算機制御に向けて
- Authors: Zihan Dong, Xinyu Fan, Zixiang Tang, Yunqing Li,
- Abstract要約: 我々は,OS制御を2段階のオプションプロセスとして定式化する軽量階層型強化学習フレームワークであるComputerAgentを導入する。
135の現実世界のデスクトップタスクで、ComputerAgentは92.1%の簡単なタスクで成功し、58.8%のハードタスクで成功している。
その結果、階層型RLは、コンピュータ制御のためのモノリシックMLLMベースの自動化に代わる実用的でスケーラブルな代替手段を提供することを示した。
- 参考スコア(独自算出の注目度): 5.258138614911196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling desktop applications via software remains a fundamental yet under-served problem. Existing multi-modal large language models (MLLMs) ingest screenshots and task instructions to generate keystrokes and mouse events, but they suffer from prohibitive inference latency, poor sample efficiency on long-horizon sparse-reward tasks, and infeasible on-device deployment. We introduce a lightweight hierarchical reinforcement learning framework, ComputerAgent, that formulates OS control as a two-level option process (manager and subpolicy), employs a triple-modal state encoder (screenshot, task ID, numeric state) to handle visual and contextual diversity, integrates meta-actions with an early-stop mechanism to reduce wasted interactions, and uses a compact vision backbone plus small policy networks for on-device inference (15M parameters). On a suite of 135 real-world desktop tasks, ComputerAgent attains 92.1% success on simple tasks (<8 steps) and 58.8% on hard tasks (>=8 steps), matching or exceeding 200B-parameter MLLM baselines on simple scenarios while reducing model size by over four orders of magnitude and halving inference time. These results demonstrate that hierarchical RL offers a practical, scalable alternative to monolithic MLLM-based automation for computer control.
- Abstract(参考訳): デスクトップアプリケーションをソフトウェアで制御することは、依然として根本的な問題だが、未解決の問題である。
既存のマルチモーダルな大規模言語モデル(MLLM)は、スクリーンショットとタスク命令を取り込み、キーストロークやマウスイベントを生成するが、予測遅延が禁止され、長い水平スパース・リワードタスクのサンプル効率が低下し、デバイス上でのデプロイが不可能である。
我々は,OS制御を2段階のオプションプロセス(マネージャとサブポリティクス)として定式化した軽量な階層型強化学習フレームワークであるComputerAgentを導入し,3重モード状態エンコーダ(スクリーンショット,タスクID,数値状態)を用いて視覚的および文脈的な多様性を処理し,メタアクションを早期停止機構と統合して無駄なインタラクションを低減し,コンパクトなビジョンバックボーンと小さなポリシーネットワークをオンデバイス推論に使用した(15Mパラメータ)。
実世界の135のデスクトップタスクでは、ComputerAgentは、単純なタスクで92.1%、ハードタスクで58.8%、単純なシナリオで200BパラメータのMLLMベースラインをマッチまたはオーバーし、モデルサイズを4桁以上削減し、推論時間を半減する。
これらの結果から、階層型RLは、コンピュータ制御のためのモノリシックMLLMベースの自動化に代わる実用的でスケーラブルな代替手段であることが示された。
関連論文リスト
- UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。
我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。
我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文 参考訳(メタデータ) (2025-04-20T13:04:43Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer
Control [23.115574119132507]
コンピュータ制御のための大きな言語モデルを持つエージェントを構築することは、エージェントがコンピュータの状態を受け取り、タスクを完了するためのアクションを実行する、急成長する研究領域である。
従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。
i) タスク非関連情報を原状態からフィルタリングし、制限されたコンテキスト内でより多くの例を示し、i) トラジェクトリ・アズ・インタープロンプトを可能にし、LLMに抽象化された状態の完全なトラジェクトリとアクションを誘導し、マルチステップ決定を改善する。
論文 参考訳(メタデータ) (2023-06-13T15:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。