Fugu-MT 論文翻訳(概要): Acquisition through My Eyes and Steps: A Joint Predictive Agent Model in Egocentric Worlds

論文の概要: Acquisition through My Eyes and Steps: A Joint Predictive Agent Model in Egocentric Worlds

arxiv url: http://arxiv.org/abs/2502.05857v1
Date: Sun, 09 Feb 2025 11:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.343247
Title: Acquisition through My Eyes and Steps: A Joint Predictive Agent Model in Egocentric Worlds
Title（参考訳）: 目とステップによる獲得:エゴセントリック世界における共同予測エージェントモデル
Authors: Lu Chen, Yizhou Wang, Shixiang Tang, Qianhong Ma, Tong He, Wanli Ouyang, Xiaowei Zhou, Hujun Bao, Sida Peng,
Abstract要約: 本稿では,人間のように行動するエージェントモデルを学習し,人間中心の世界において協調的に知覚し,予測し,行動することができる課題について述べる。本研究では,世界を表現することを同時に学び,将来の状態を予測し,一つのトランスフォーマーで合理的な行動をとる,共同予測エージェントモデルEgoAgentを提案する。
参考スコア（独自算出の注目度）: 107.62381002403814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses the task of learning an agent model behaving like humans, which can jointly perceive, predict, and act in egocentric worlds. Previous methods usually train separate models for these three abilities, leading to information silos among them, which prevents these abilities from learning from each other and collaborating effectively. In this paper, we propose a joint predictive agent model, named EgoAgent, that simultaneously learns to represent the world, predict future states, and take reasonable actions with a single transformer. EgoAgent unifies the representational spaces of the three abilities by mapping them all into a sequence of continuous tokens. Learnable query tokens are appended to obtain current states, future states, and next actions. With joint supervision, our agent model establishes the internal relationship among these three abilities and effectively mimics the human inference and learning processes. Comprehensive evaluations of EgoAgent covering image classification, egocentric future state prediction, and 3D human motion prediction tasks demonstrate the superiority of our method. The code and trained model will be released for reproducibility.
Abstract（参考訳）: 本稿では,人間のように行動するエージェントモデルを学習し,人間中心の世界において協調的に知覚し,予測し,行動することができる課題について述べる。従来の手法は通常、これらの3つの能力について別々のモデルを訓練し、それらの間の情報サイロをもたらし、これらの能力が互いに学び、効果的に協力することを防ぐ。本稿では,世界を表現することを同時に学び,将来の状態を予測し,一つのトランスフォーマーで合理的な行動をとる,共同予測エージェントモデルであるEgoAgentを提案する。 EgoAgentは、3つの能力の表現空間を全て連続したトークンの列にマッピングすることで統一する。学習可能なクエリトークンは、現在の状態、将来の状態、次のアクションを取得するために追加される。共同指導により,エージェントモデルはこれらの3つの能力の内的関係を確立し,人間の推論と学習過程を効果的に模倣する。 EgoAgentによる画像分類,エゴセントリックな将来状態予測,および3次元人間の動作予測タスクの総合評価は,本手法の優位性を示している。コードとトレーニングされたモデルは再現性のためにリリースされます。

関連論文リスト

Whole-Body Conditioned Egocentric Video Prediction [98.94980209293776]
我々は、人間行動(PEVA)からエゴ中心のビデオを予測するモデルを訓練する。身体の関節階層によって構成される運動的ポーズの軌跡を条件にすることで,人間の身体行動が1対1の視点から環境をどう形成するかをシミュレートする。我々の研究は、複雑な現実世界の環境をモデル化し、人間の視点から映像を予測するエージェントの振る舞いを具体化するための最初の試みである。
論文参考訳（メタデータ） (2025-06-26T17:59:59Z)
Poly-Autoregressive Prediction for Modeling Interactions [42.51313085280179]
本稿では,エゴエージェントの今後の行動を予測する多自己回帰(PAR)モデリングを提案する。 PARは、社会的状況における人間の行動予測、自動運転車の軌道予測、手動物体間相互作用における物体のポーズ予測の3つの異なる問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-12T18:59:43Z)
DIRIGENt: End-To-End Robotic Imitation of Human Demonstrations Based on a Diffusion Model [16.26334759935617]
本研究では,人間の実演の観察から共同価値を生成するための新しいエンドツーエンド拡散手法であるDIRIGENtを紹介する。我々は、人間がロボットを模倣するデータセットを作成し、この収集されたデータを使って、ロボットが人間を模倣できる拡散モデルを訓練する。
論文参考訳（メタデータ） (2025-01-28T09:05:03Z)
Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。 Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文参考訳（メタデータ） (2024-05-27T13:32:43Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
COMBO: Compositional World Models for Embodied Multi-Agent Cooperation [65.46592503910875]
分散エージェントは,世界のエゴセントリックな視点のみを前提として協力しなくてはならない,多エージェント連携の具体化の問題について検討する。複数のエージェントの自然な構成可能な共同動作を分解することにより、マルチエージェント協調のための構成的世界モデルを学ぶ。提案手法を2-4エージェントを用いた3つの挑戦的ベンチマークで評価した。
論文参考訳（メタデータ） (2024-04-16T17:59:11Z)
Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文参考訳（メタデータ） (2024-02-29T18:57:37Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文参考訳（メタデータ） (2022-11-21T16:00:31Z)
Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文参考訳（メタデータ） (2022-04-17T11:21:18Z)
A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文参考訳（メタデータ） (2022-04-02T21:50:45Z)
Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文参考訳（メタデータ） (2021-06-22T18:29:58Z)
An active inference model of collective intelligence [0.0]
本稿では,局所的な個人レベルの相互作用と集団的知性の関係をシミュレートする最小エージェントモデルを提案する。その結果, エージェントの局所的最適とグローバル的最適の整合性の相補的なメカニズムを提供することにより, 段階的認知遷移がシステム性能を向上させることが示された。
論文参考訳（メタデータ） (2021-04-02T14:32:01Z)
AgentFormer: Agent-Aware Transformers for Socio-Temporal Multi-Agent Forecasting [25.151713845738335]
我々は、時間と社会的次元を共同でモデル化する新しいトランスフォーマー、AgentFormerを提案する。エージェントフォーマに基づいて,任意のエージェントの特徴に任意の時間ステップで対応可能なマルチエージェント軌道予測モデルを提案する。提案手法は,歩行者および自律運転用データセットにおける技術状況を大幅に改善する。
論文参考訳（メタデータ） (2021-03-25T17:59:01Z)
Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文参考訳（メタデータ） (2020-12-10T13:55:47Z)
Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文参考訳（メタデータ） (2019-12-30T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。