論文の概要: IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2602.17049v1
- Date: Thu, 19 Feb 2026 03:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.619724
- Title: IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents
- Title(参考訳): IntentCUA:コンピュータ利用エージェントにおけるスキル抽象化とマルチエージェント計画のためのインテントレベルの表現学習
- Authors: Seoyoung Lee, Seobin Yoon, Seongbeen Lee, Yoojung Chun, Dayoung Park, Doyeon Kim, Joo Yong Sim,
- Abstract要約: IntentCUAは,計画メモリによる長期実行の安定化を目的としたコンピュータ用フレームワークである。
Int Intentプロトタイプはサブグループ対応のスキルを取得し、部分的な計画にそれらを注入することで、冗長な再計画が削減される。
Int IntentCUAは、ステップ効率比0.91で74.83%のタスク成功率を達成した。
- 参考スコア(独自算出の注目度): 4.655926959889001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents operate over long horizons under noisy perception, multi-window contexts, evolving environment states. Existing approaches, from RL-based planners to trajectory retrieval, often drift from user intent and repeatedly solve routine subproblems, leading to error accumulation and inefficiency. We present IntentCUA, a multi-agent computer-use framework designed to stabilize long-horizon execution through intent-aligned plan memory. A Planner, Plan-Optimizer, and Critic coordinate over shared memory that abstracts raw interaction traces into multi-view intent representations and reusable skills. At runtime, intent prototypes retrieve subgroup-aligned skills and inject them into partial plans, reducing redundant re-planning and mitigating error propagation across desktop applications. In end-to-end evaluations, IntentCUA achieved a 74.83% task success rate with a Step Efficiency Ratio of 0.91, outperforming RL-based and trajectory-centric baselines. Ablations show that multi-view intent abstraction and shared plan memory jointly improve execution stability, with the cooperative multi-agent loop providing the largest gains on long-horizon tasks. These results highlight that system-level intent abstraction and memory-grounded coordination are key to reliable and efficient desktop automation in large, dynamic environments.
- Abstract(参考訳): コンピュータ利用エージェントは、ノイズの多い知覚、マルチウィンドウコンテキスト、環境状態の進化の下で長い地平線上で動作する。
RLベースのプランナーから軌道探索まで、既存のアプローチは、しばしばユーザ意図から逸脱し、定期的なサブプロブレムを何度も解決し、エラーの蓄積と非効率をもたらす。
IntentCUAは,計画メモリによる長期実行の安定化を目的としたマルチエージェント・コンピュータ・ユース・フレームワークである。
共有メモリ上のPlanner, Plan-Optimizer, Critic座標は、生のインタラクショントレースを多視点のインテント表現と再利用可能なスキルに抽象化する。
実行時に、意図的なプロトタイプはサブグループ対応のスキルを検索し、部分的な計画にそれらを注入することで、冗長な再計画とデスクトップアプリケーション間のエラーの伝播を軽減します。
エンドツーエンドの評価では、IntentCUAは74.83%のタスク成功率に達し、ステップ効率比は0.91となり、RLベースと軌道中心のベースラインを上回った。
アブレーションは,多視点意図抽象化と共有計画メモリが協調的に実行安定性を向上させることを示す。
これらの結果から,大規模でダイナミックな環境において,システムレベルの意図の抽象化とメモリ基底調整が,信頼性と効率的なデスクトップ自動化の鍵となることが示唆された。
関連論文リスト
- HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents [36.77027704958893]
HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。
HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
論文 参考訳(メタデータ) (2026-02-18T03:31:34Z) - Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - StackPlanner: A Centralized Hierarchical Multi-Agent System with Task-Experience Memory Management [25.50119360269554]
中央のエージェントは、メモリ管理の欠如により不安定な長期のコラボレーションに悩まされることが多い。
メモリ制御を明示する階層型マルチエージェントフレームワークStackPlannerを提案する。
複数のディープサーチおよびエージェントシステムベンチマークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2026-01-09T16:09:48Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。