論文の概要: EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds
- arxiv url: http://arxiv.org/abs/2502.05857v2
- Date: Tue, 29 Apr 2025 15:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 00:39:29.430956
- Title: EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds
- Title(参考訳): EgoAgent:エゴセントリック世界における共同予測エージェントモデル
- Authors: Lu Chen, Yizhou Wang, Shixiang Tang, Qianhong Ma, Tong He, Wanli Ouyang, Xiaowei Zhou, Hujun Bao, Sida Peng,
- Abstract要約: 本稿では,人間のように行動するエージェントモデルを学習し,人間中心の世界において協調的に知覚し,予測し,行動することができる課題について述べる。
本研究では,世界を表現することを同時に学び,将来の状態を予測し,一つのトランスフォーマー内で合理的な行動をとる,共同予測エージェントモデルEgoAgentを提案する。
- 参考スコア(独自算出の注目度): 107.62381002403814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the task of learning an agent model behaving like humans, which can jointly perceive, predict, and act in egocentric worlds. Previous methods usually train separate models for these three abilities, which prevents them from learning from each other. In this paper, we propose a joint predictive agent model, named EgoAgent, that simultaneously learns to represent the world, predict future states, and take reasonable actions within a single transformer. EgoAgent introduces two innovations to learn from the causal and temporally intertwined nature of these abilities: (1) Interleaved sequential modeling of states and actions with the causal attention mechanism, and (2) A joint embedding-action-prediction architecture featuring temporal asymmetric predictor-observer branches. Integrating these designs based on JEPA, EgoAgent unifies these capabilities in a cohesive learning framework. Comprehensive evaluations of EgoAgent on representative tasks such as image classification, egocentric future state prediction, and 3D human motion prediction tasks demonstrate the superiority of our method. The code and trained model will be released for reproducibility.
- Abstract(参考訳): 本稿では,人間のように行動するエージェントモデルを学習し,人間中心の世界において協調的に知覚し,予測し,行動することができる課題について述べる。
従来の手法は通常、これらの3つの能力について別々のモデルを訓練する。
本稿では,世界を表現し,将来の状態を予測し,一つの変圧器内で合理的な行動をとることを同時に学習する,EgoAgentという共同予測エージェントモデルを提案する。
EgoAgentは、これらの能力の因果的・時間的相互作用から学ぶための2つの革新を紹介している。(1) 因果的注意機構による状態と行動の逐次的モデリングと(2) 時間的非対称な予測・オブザーバの分岐を特徴とする統合埋め込み・行動予測アーキテクチャ。
これらの設計をJEPAに基づいて統合することで、EgoAgentはこれらの機能を凝集学習フレームワークに統合する。
EgoAgentの画像分類,エゴセントリックな将来の状態予測,3次元人間の動作予測といった代表的タスクに対する総合的な評価は,本手法の優位性を示している。
コードとトレーニングされたモデルは再現性のためにリリースされます。
関連論文リスト
- Poly-Autoregressive Prediction for Modeling Interactions [42.51313085280179]
本稿では,エゴエージェントの今後の行動を予測する多自己回帰(PAR)モデリングを提案する。
PARは、社会的状況における人間の行動予測、自動運転車の軌道予測、手動物体間相互作用における物体のポーズ予測の3つの異なる問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2025-02-12T18:59:43Z) - DIRIGENt: End-To-End Robotic Imitation of Human Demonstrations Based on a Diffusion Model [16.26334759935617]
本研究では,人間の実演の観察から共同価値を生成するための新しいエンドツーエンド拡散手法であるDIRIGENtを紹介する。
我々は、人間がロボットを模倣するデータセットを作成し、この収集されたデータを使って、ロボットが人間を模倣できる拡散モデルを訓練する。
論文 参考訳(メタデータ) (2025-01-28T09:05:03Z) - Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - COMBO: Compositional World Models for Embodied Multi-Agent Cooperation [65.46592503910875]
分散エージェントは,世界のエゴセントリックな視点のみを前提として協力しなくてはならない,多エージェント連携の具体化の問題について検討する。
複数のエージェントの自然な構成可能な共同動作を分解することにより、マルチエージェント協調のための構成的世界モデルを学ぶ。
提案手法を2-4エージェントを用いた3つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2024-04-16T17:59:11Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - An active inference model of collective intelligence [0.0]
本稿では,局所的な個人レベルの相互作用と集団的知性の関係をシミュレートする最小エージェントモデルを提案する。
その結果, エージェントの局所的最適とグローバル的最適の整合性の相補的なメカニズムを提供することにより, 段階的認知遷移がシステム性能を向上させることが示された。
論文 参考訳(メタデータ) (2021-04-02T14:32:01Z) - AgentFormer: Agent-Aware Transformers for Socio-Temporal Multi-Agent
Forecasting [25.151713845738335]
我々は、時間と社会的次元を共同でモデル化する新しいトランスフォーマー、AgentFormerを提案する。
エージェントフォーマに基づいて,任意のエージェントの特徴に任意の時間ステップで対応可能なマルチエージェント軌道予測モデルを提案する。
提案手法は,歩行者および自律運転用データセットにおける技術状況を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-25T17:59:01Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。