論文の概要: Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding
- arxiv url: http://arxiv.org/abs/2501.00358v2
- Date: Thu, 09 Jan 2025 03:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:56:58.313305
- Title: Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding
- Title(参考訳): Embodied VideoAgent:Egocentric VideosとEmbodied Sensorsによるダイナミックなシーン理解のための永続記憶
- Authors: Yue Fan, Xiaojian Ma, Rongpeng Su, Jun Guo, Rujie Wu, Xi Chen, Qing Li,
- Abstract要約: Embodied VideoAgentは、エゴセントリックビデオとエンボディインプットの両方からシーンメモリを構築する。
我々は,ロボット操作において,具体的相互作用の生成や知覚など,様々なAIタスクにおいてその可能性を実証した。
- 参考スコア(独自算出の注目度): 21.619878862869754
- License:
- Abstract: This paper investigates the problem of understanding dynamic 3D scenes from egocentric observations, a key challenge in robotics and embodied AI. Unlike prior studies that explored this as long-form video understanding and utilized egocentric video only, we instead propose an LLM-based agent, Embodied VideoAgent, which constructs scene memory from both egocentric video and embodied sensory inputs (e.g. depth and pose sensing). We further introduce a VLM-based approach to automatically update the memory when actions or activities over objects are perceived. Embodied VideoAgent attains significant advantages over counterparts in challenging reasoning and planning tasks in 3D scenes, achieving gains of 4.9% on Ego4D-VQ3D, 5.8% on OpenEQA, and 11.7% on EnvQA. We have also demonstrated its potential in various embodied AI tasks including generating embodied interactions and perception for robot manipulation. The code and demo will be made public.
- Abstract(参考訳): 本稿では,ロボット工学における重要な課題である自我中心の観察から,ダイナミックな3Dシーンを理解することの問題点を考察する。
長文ビデオ理解とエゴセントリックビデオのみを用いた従来の研究とは異なり、エゴセントリックビデオとエンボディドセンサーの両方からシーンメモリを構築するLLMベースのエージェントであるEmbodied VideoAgentを提案する(例えば深度とポーズセンシング)。
さらに、オブジェクトに対するアクションやアクティビティが認識されたときに、メモリを自動的に更新するVLMベースのアプローチを導入する。
Embodied VideoAgentは、Ego4D-VQ3Dで4.9%、OpenEQAで5.8%、EnvQAで11.7%という、難解な3Dシーンでの推論と計画タスクにおいて、相手よりも大きな優位性を達成した。
また,ロボット操作において,具体的相互作用の生成や知覚など,様々なAIタスクにおいてその可能性を実証した。
コードとデモは公開されます。
関連論文リスト
- VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding [44.79843213164787]
身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。
本稿では,ビデオキャプションにおけるVLMのトレーニングや,エゴセントリックなビデオに特有の質問応答を行うためのEgocentric Video Understanding dataset(EVUD)を紹介する。
本稿では,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:14:14Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Neural Volumetric Memory for Visual Locomotion Control [11.871849736648237]
本研究では、1台の前方深度カメラを用いて、挑戦的な地形を移動させることの難しさを考察する。
この問題を解決するため,映像の3次元幾何学を明示的にモデル化するコンピュータビジョンのパラダイムを踏襲する。
トレーニング中に幾何的先行を明示的に導入するアプローチは,よりナイーブな手法よりも優れた性能を提供することを示す。
論文 参考訳(メタデータ) (2023-04-03T17:59:56Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Shaping embodied agent behavior with activity-context priors from
egocentric video [102.0541532564505]
そこで我々は,人間の着用カメラで撮影した野生の自我中心の映像から,アクティビティ・コンテクストの先行情報を発見するためのアプローチを提案する。
我々は,ビデオの先行を補助報酬関数としてエンコードし,エージェントが対話を試みる前に,互換性のあるオブジェクトをまとめるように促す。
我々は,AI2-iTHORの様々な複雑なタスクを行う仮想家庭ロボットエージェントに利益をもたらすために,記述されていないキッチン活動を行う人々のエゴセントリックEPIC-Kitchensビデオを用いて,私たちのアイデアを実証する。
論文 参考訳(メタデータ) (2021-10-14T20:02:59Z) - Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。
提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。
また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。
パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文 参考訳(メタデータ) (2021-08-23T20:47:09Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。