論文の概要: ColorAgent: Building A Robust, Personalized, and Interactive OS Agent
- arxiv url: http://arxiv.org/abs/2510.19386v2
- Date: Fri, 24 Oct 2025 07:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.238996
- Title: ColorAgent: Building A Robust, Personalized, and Interactive OS Agent
- Title(参考訳): ColorAgent:ロバストでパーソナライズされた対話型OSエージェント
- Authors: Ning Li, Qiqiang Lin, Zheng Wu, Xiaoyun Mo, Weiming Zhang, Yin Zhao, Xiangmou Qu, Jiamu Zhou, Jun Wang, Congmin Zheng, Yuanyi Song, Hongjiang Chen, Heyuan Huang, Jihong Wang, Jiaxin Yin, Jingwei Yu, Junwei Liao, Qiuying Peng, Xingyu Lou, Jun Wang, Weiwen Liu, Zhuosheng Zhang, Weinan Zhang,
- Abstract要約: ユーザ指示を実行し,ユーザの要望を忠実に追従できるオペレーティングシステム(OS)エージェントの構築が現実化しつつある。
環境との長期的かつ堅牢なインタラクションを実現するために設計されたOSエージェントであるColorAgentを提示する。
我々は,OSエージェントを温かくて協調的なパートナーとして位置づけ,パーソナライズされたユーザ意図認識と積極的なエンゲージメントについて検討する。
- 参考スコア(独自算出の注目度): 48.95201741635228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancements in hardware, software, and large language model technologies, the interaction between humans and operating systems has evolved from the command-line interface to the rapidly emerging AI agent interactions. Building an operating system (OS) agent capable of executing user instructions and faithfully following user desires is becoming a reality. In this technical report, we present ColorAgent, an OS agent designed to engage in long-horizon, robust interactions with the environment while also enabling personalized and proactive user interaction. To enable long-horizon interactions with the environment, we enhance the model's capabilities through step-wise reinforcement learning and self-evolving training, while also developing a tailored multi-agent framework that ensures generality, consistency, and robustness. In terms of user interaction, we explore personalized user intent recognition and proactive engagement, positioning the OS agent not merely as an automation tool but as a warm, collaborative partner. We evaluate ColorAgent on the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2% and 50.7%, respectively, establishing a new state of the art. Nonetheless, we note that current benchmarks are insufficient for a comprehensive evaluation of OS agents and propose further exploring directions in future work, particularly in the areas of evaluation paradigms, agent collaboration, and security.
- Abstract(参考訳): ハードウェア、ソフトウェア、および大規模言語モデル技術の進歩により、人間とオペレーティングシステム間のインタラクションは、コマンドラインインターフェースから急速に進化するAIエージェントインタラクションへと進化してきた。
ユーザ指示を実行し、ユーザの要望を忠実に追従できるオペレーティングシステム(OS)エージェントの構築が現実化しつつある。
本技術報告では,環境との長期的かつ堅牢なインタラクションを実現するとともに,パーソナライズされたユーザインタラクションを可能にするOSエージェントであるColorAgentについて述べる。
環境との長時間の対話を可能にするため,ステップワイズ強化学習と自己進化学習を通じてモデルの能力を高めるとともに,汎用性,一貫性,堅牢性を確保するための,調整されたマルチエージェントフレームワークを開発する。
ユーザインタラクションの観点から、パーソナライズされたユーザ意図認識と積極的なエンゲージメントを探求し、OSエージェントを自動化ツールとしてだけでなく、温かく協調的なパートナとして位置づける。
AndroidWorldとAndroidLabのベンチマークでColorAgentを評価し、それぞれ77.2%と50.7%の成功率を獲得し、新しい最先端技術を確立しました。
それにもかかわらず、OSエージェントの総合的な評価には現在のベンチマークでは不十分であり、特に評価パラダイム、エージェントコラボレーション、セキュリティといった分野において、今後の作業におけるさらなる方向性を提案することに留意する。
関連論文リスト
- VeriOS: Query-Driven Proactive Human-Agent-GUI Interaction for Trustworthy OS Agents [39.3943822850841]
We introduced VeriOS-Agent, a trustworthy OS agent training with a two-stage learning paradigm。
VeriOS-Agentは、最先端技術に対する信頼できないシナリオにおいて、平均的なステップワイドの成功率を20.64%改善することを示す。
論文 参考訳(メタデータ) (2025-09-09T09:46:01Z) - Agentic Web: Weaving the Next Web with AI Agents [109.13815627467514]
大規模言語モデル(LLM)を活用したAIエージェントの出現は、エージェントWebに対する重要な転換点である。
このパラダイムでは、エージェントが直接対話して、ユーザに代わって複雑なタスクを計画、コーディネート、実行します。
本稿では,エージェントWebの理解と構築のための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-28T17:58:12Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。