論文の概要: EgoEnv: Human-centric environment representations from egocentric video
- arxiv url: http://arxiv.org/abs/2207.11365v3
- Date: Thu, 9 Nov 2023 19:13:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:39:25.421471
- Title: EgoEnv: Human-centric environment representations from egocentric video
- Title(参考訳): egoenv: エゴセントリックビデオによる人間中心の環境表現
- Authors: Tushar Nagarajan, Santhosh Kumar Ramakrishnan, Ruta Desai, James
Hillis, Kristen Grauman
- Abstract要約: ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。
現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。
本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測できる表現を学習することで、自我中心の映像と環境を結びつけるアプローチを提案する。
- 参考スコア(独自算出の注目度): 60.34649902578047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-person video highlights a camera-wearer's activities in the context of
their persistent environment. However, current video understanding approaches
reason over visual features from short video clips that are detached from the
underlying physical space and capture only what is immediately visible. To
facilitate human-centric environment understanding, we present an approach that
links egocentric video and the environment by learning representations that are
predictive of the camera-wearer's (potentially unseen) local surroundings. We
train such models using videos from agents in simulated 3D environments where
the environment is fully observable, and test them on human-captured real-world
videos from unseen environments. On two human-centric video tasks, we show that
models equipped with our environment-aware features consistently outperform
their counterparts with traditional clip features. Moreover, despite being
trained exclusively on simulated videos, our approach successfully handles
real-world videos from HouseTours and Ego4D, and achieves state-of-the-art
results on the Ego4D NLQ challenge. Project page:
https://vision.cs.utexas.edu/projects/ego-env/
- Abstract(参考訳): ファーストパーソンビデオは、カメラ着用者の永続的な環境の文脈での活動を強調する。
しかし、現在のビデオ理解アプローチは、下層の物理的空間から切り離され、すぐに見えるものだけをキャプチャする短いビデオクリップから視覚的特徴を引き出す。
本研究では,人間中心の環境理解を容易にするために,カメラ装着者の(潜在的に見えない)局所環境を予測した表現を学習することにより,エゴセントリック映像と環境をリンクする手法を提案する。
環境が完全に観測可能なシミュレーション3d環境でエージェントの動画を使用して,このようなモデルをトレーニングし,未発見の環境から取得した実世界ビデオでテストする。
2つの人間中心のビデオタスクにおいて,環境認識機能を備えたモデルが,従来のクリップ機能よりも常に優れています。
さらに,シミュレーションビデオのみを訓練しながら,housetours と ego4d による実世界ビデオの処理に成功し,ego4d nlq 課題において最先端の結果を得ることができた。
プロジェクトページ: https://vision.cs.utexas.edu/projects/ego-env/
関連論文リスト
- EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatars [56.56236652774294]
本研究では,光合成デジタルアバターを共同でモデル化し,同時に1つの自我中心映像から駆動する人物中心型テレプレゼンス手法を提案する。
提案手法は,エゴセントリック・フォトリアル・テレプレゼンスへの明確な一歩として,ベースラインと競合する手法に優れることを示す。
論文 参考訳(メタデータ) (2024-09-22T22:50:27Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - Self-supervised video pretraining yields human-aligned visual
representations [10.406358397515838]
一般的な表現は、画像理解タスクにおける事前ビデオ事前学習法よりもはるかに優れている。
VITO表現は、画像、ビデオ、および逆向きに訓練されたものよりも、自然および合成的な変形に対して著しく堅牢である。
これらの結果は、ビデオ事前学習は、視覚世界の統一的、堅牢で、人間と協調した表現を学習する簡単な方法になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-10-12T17:30:12Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z) - EGO-TOPO: Environment Affordances from Egocentric Video [104.77363598496133]
本稿では,エゴセントリックビデオから直接学習した環境割当モデルを提案する。
提案手法は,空間を一対一の活動から導かれた位相写像に分解する。
EPIC-Kitchens と EGTEA+ では,シーン・アベイランスの学習と,ロングフォームビデオにおける今後の行動を予測するためのアプローチを実証する。
論文 参考訳(メタデータ) (2020-01-14T01:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。