論文の概要: PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
- arxiv url: http://arxiv.org/abs/2412.17589v1
- Date: Mon, 23 Dec 2024 14:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:55.638122
- Title: PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
- Title(参考訳): PCエージェント:あなたが寝ている間、AIは機能する - デジタルワールドへの認知的な旅
- Authors: Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu,
- Abstract要約: PC Agentは、人間の認知伝達を通じて、このビジョンに向けて重要なステップを示すAIシステムである。
この仮説を検証するために、我々は3つの重要な革新を紹介した。
PowerPointのプレゼンテーション作成における予備的な実験は、少量の高品質な認知データで複雑なデジタル作業機能を実現することができることを示している。
- 参考スコア(独自算出の注目度): 19.03469895271871
- License:
- Abstract: Imagine a world where AI can handle your work while you sleep - organizing your research materials, drafting a report, or creating a presentation you need for tomorrow. However, while current digital agents can perform simple tasks, they are far from capable of handling the complex real-world work that humans routinely perform. We present PC Agent, an AI system that demonstrates a crucial step toward this vision through human cognition transfer. Our key insight is that the path from executing simple "tasks" to handling complex "work" lies in efficiently capturing and learning from human cognitive processes during computer use. To validate this hypothesis, we introduce three key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently collects high-quality human-computer interaction trajectories with complete cognitive context; (2) a two-stage cognition completion pipeline that transforms raw interaction data into rich cognitive trajectories by completing action semantics and thought processes; and (3) a multi-agent system combining a planning agent for decision-making with a grounding agent for robust visual grounding. Our preliminary experiments in PowerPoint presentation creation reveal that complex digital work capabilities can be achieved with a small amount of high-quality cognitive data - PC Agent, trained on just 133 cognitive trajectories, can handle sophisticated work scenarios involving up to 50 steps across multiple applications. This demonstrates the data efficiency of our approach, highlighting that the key to training capable digital agents lies in collecting human cognitive data. By open-sourcing our complete framework, including the data collection infrastructure and cognition completion methods, we aim to lower the barriers for the research community to develop truly capable digital agents.
- Abstract(参考訳): 研究資料の整理、レポートの起草、明日に必要なプレゼンテーションの作成など、AIが睡眠中の仕事を処理できる世界を想像してください。
しかし、現在のデジタルエージェントは単純なタスクを実行できるが、人間が日常的に行う複雑な現実世界の作業を扱う能力には程遠い。
我々は,人間の認知伝達を通じて,このビジョンに向けた重要なステップを示すAIシステムであるPC Agentを提案する。
私たちの重要な洞察は、単純な"タスク"から複雑な"作業"を扱うまでの道は、コンピュータ使用中に人間の認知プロセスから効率的に捕捉し、学習することにあります。
この仮説を検証するために,(1)高品質なコンピュータインタラクショントラジェクトリを完全認知コンテキストで効率的に収集する軽量なインフラであるPC Tracker,(2)アクションセマンティクスと思考プロセスを完成させることで生のインタラクションデータをリッチな認知トラジェクトリに変換する2段階の認知補完パイプライン,(3)意思決定のための計画エージェントと堅牢な視覚的接地のための接地エージェントを組み合わせたマルチエージェントシステムを紹介した。
PowerPointのプレゼンテーション作成における予備的な実験によると、複雑なデジタルワーク機能は、少量の高品質な認知データで実現可能であることが判明した。
これは我々のアプローチのデータ効率を実証し、有能なデジタルエージェントを訓練する鍵が人間の認知データを収集することにあることを強調している。
データ収集インフラストラクチャや認識完了方法などを含む完全なフレームワークをオープンソース化することで、研究コミュニティが真に有能なデジタルエージェントを開発するための障壁を低くすることを目指しています。
関連論文リスト
- Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - A data-driven approach for learning to control computers [8.131261634438912]
本稿では,キーボードとマウスを用いたコンピュータ制御の設定について,自然言語による目標設定について検討する。
MiniWob++ベンチマークのすべてのタスクにおいて、最先端および人間レベルの平均パフォーマンスを実現しています。
これらの結果から,コンピュータを訓練する際の統合ヒューマンエージェントインタフェースの有用性が示された。
論文 参考訳(メタデータ) (2022-02-16T15:23:46Z) - VECA : A Toolkit for Building Virtual Environments to Train and Test
Human-like Agents [5.366273200529158]
そこで我々は,人間のようなエージェントをトレーニングし,テストするための実りの多い仮想環境を構築するための新しいVRベースのツールキットVECAを提案する。
VECAはヒューマノイドエージェントと環境マネージャを提供しており、エージェントはリッチな人間のような知覚を受け取り、包括的な相互作用を行うことができる。
VECAを動機付けるために、私たちはまた、初期の人間の発達に不可欠な4つの側面を表す(ただしこれらに限定されない)24のインタラクティブタスクを提供します。
論文 参考訳(メタデータ) (2021-05-03T11:42:27Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z) - Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。
我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2020-05-01T20:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。