論文の概要: Acquisition through My Eyes and Steps: A Joint Predictive Agent Model in Egocentric Worlds
- arxiv url: http://arxiv.org/abs/2502.05857v1
- Date: Sun, 09 Feb 2025 11:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:57.967895
- Title: Acquisition through My Eyes and Steps: A Joint Predictive Agent Model in Egocentric Worlds
- Title(参考訳): 目とステップによる獲得:エゴセントリック世界における共同予測エージェントモデル
- Authors: Lu Chen, Yizhou Wang, Shixiang Tang, Qianhong Ma, Tong He, Wanli Ouyang, Xiaowei Zhou, Hujun Bao, Sida Peng,
- Abstract要約: 本稿では,人間のように行動するエージェントモデルを学習し,人間中心の世界において協調的に知覚し,予測し,行動することができる課題について述べる。
本研究では,世界を表現することを同時に学び,将来の状態を予測し,一つのトランスフォーマーで合理的な行動をとる,共同予測エージェントモデルEgoAgentを提案する。
- 参考スコア(独自算出の注目度): 107.62381002403814
- License:
- Abstract: This paper addresses the task of learning an agent model behaving like humans, which can jointly perceive, predict, and act in egocentric worlds. Previous methods usually train separate models for these three abilities, leading to information silos among them, which prevents these abilities from learning from each other and collaborating effectively. In this paper, we propose a joint predictive agent model, named EgoAgent, that simultaneously learns to represent the world, predict future states, and take reasonable actions with a single transformer. EgoAgent unifies the representational spaces of the three abilities by mapping them all into a sequence of continuous tokens. Learnable query tokens are appended to obtain current states, future states, and next actions. With joint supervision, our agent model establishes the internal relationship among these three abilities and effectively mimics the human inference and learning processes. Comprehensive evaluations of EgoAgent covering image classification, egocentric future state prediction, and 3D human motion prediction tasks demonstrate the superiority of our method. The code and trained model will be released for reproducibility.
- Abstract(参考訳): 本稿では,人間のように行動するエージェントモデルを学習し,人間中心の世界において協調的に知覚し,予測し,行動することができる課題について述べる。
従来の手法は通常、これらの3つの能力について別々のモデルを訓練し、それらの間の情報サイロをもたらし、これらの能力が互いに学び、効果的に協力することを防ぐ。
本稿では,世界を表現することを同時に学び,将来の状態を予測し,一つのトランスフォーマーで合理的な行動をとる,共同予測エージェントモデルであるEgoAgentを提案する。
EgoAgentは、3つの能力の表現空間を全て連続したトークンの列にマッピングすることで統一する。
学習可能なクエリトークンは、現在の状態、将来の状態、次のアクションを取得するために追加される。
共同指導により,エージェントモデルはこれらの3つの能力の内的関係を確立し,人間の推論と学習過程を効果的に模倣する。
EgoAgentによる画像分類,エゴセントリックな将来状態予測,および3次元人間の動作予測タスクの総合評価は,本手法の優位性を示している。
コードとトレーニングされたモデルは再現性のためにリリースされます。
関連論文リスト
- Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Modeling Human Behavior Part I -- Learning and Belief Approaches [0.0]
探索とフィードバックを通じて行動のモデルや方針を学ぶ手法に焦点を当てる。
次世代の自律的適応システムは、主にAIエージェントと人間がチームとして一緒に働く。
論文 参考訳(メタデータ) (2022-05-13T07:33:49Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。