論文の概要: Egocentric scene context for human-centric environment understanding
from video
- arxiv url: http://arxiv.org/abs/2207.11365v1
- Date: Fri, 22 Jul 2022 22:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:25:32.132474
- Title: Egocentric scene context for human-centric environment understanding
from video
- Title(参考訳): 映像からの人間中心環境理解のためのエゴセントリックシーンコンテキスト
- Authors: Tushar Nagarajan, Santhosh Kumar Ramakrishnan, Ruta Desai, James
Hillis, Kristen Grauman
- Abstract要約: ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。
現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。
本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測可能な表現を学習することで、自我中心の映像とカメラのポーズを時間とともに結びつけるアプローチを提案する。
- 参考スコア(独自算出の注目度): 74.239500776461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-person video highlights a camera-wearer's activities in the context of
their persistent environment. However, current video understanding approaches
reason over visual features from short video clips that are detached from the
underlying physical space and only capture what is directly seen. We present an
approach that links egocentric video and camera pose over time by learning
representations that are predictive of the camera-wearer's (potentially unseen)
local surroundings to facilitate human-centric environment understanding. We
train such models using videos from agents in simulated 3D environments where
the environment is fully observable, and test them on real-world videos of
house tours from unseen environments. We show that by grounding videos in their
physical environment, our models surpass traditional scene classification
models at predicting which room a camera-wearer is in (where frame-level
information is insufficient), and can leverage this grounding to localize video
moments corresponding to environment-centric queries, outperforming prior
methods. Project page: http://vision.cs.utexas.edu/projects/ego-scene-context/
- Abstract(参考訳): ファーストパーソンビデオは、カメラ着用者の永続的な環境の文脈での活動を強調する。
しかし、現在のビデオ理解のアプローチは、下層の物理的空間から切り離され、直接見えるもののみをキャプチャする短いビデオクリップから視覚的特徴を引き出す。
本稿では,人間中心の環境理解を促進するために,カメラ装着者の(潜在的に見えない)局所環境を予測した表現を学習することにより,エゴセントリック映像とカメラポーズを時間とともにリンクする手法を提案する。
環境が完全に観察可能なシミュレーション3D環境のエージェントからのビデオを用いてそのようなモデルを訓練し、見知らぬ環境からのハウスツアーの実際のビデオでテストする。
映像を物理的環境に接地することで,カメラ装着者がどの部屋にいるか(フレームレベルの情報が不足している)を予測できる従来のシーン分類モデルに勝ることを示し,環境中心のクエリに対応するビデオモーメントのローカライズに活用し,先行手法を上回っている。
プロジェクトページ: http://vision.cs.utexas.edu/projects/ego-scene-context/
関連論文リスト
- EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatars [56.56236652774294]
本研究では,光合成デジタルアバターを共同でモデル化し,同時に1つの自我中心映像から駆動する人物中心型テレプレゼンス手法を提案する。
提案手法は,エゴセントリック・フォトリアル・テレプレゼンスへの明確な一歩として,ベースラインと競合する手法に優れることを示す。
論文 参考訳(メタデータ) (2024-09-22T22:50:27Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - Self-supervised video pretraining yields human-aligned visual
representations [10.406358397515838]
一般的な表現は、画像理解タスクにおける事前ビデオ事前学習法よりもはるかに優れている。
VITO表現は、画像、ビデオ、および逆向きに訓練されたものよりも、自然および合成的な変形に対して著しく堅牢である。
これらの結果は、ビデオ事前学習は、視覚世界の統一的、堅牢で、人間と協調した表現を学習する簡単な方法になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-10-12T17:30:12Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z) - EGO-TOPO: Environment Affordances from Egocentric Video [104.77363598496133]
本稿では,エゴセントリックビデオから直接学習した環境割当モデルを提案する。
提案手法は,空間を一対一の活動から導かれた位相写像に分解する。
EPIC-Kitchens と EGTEA+ では,シーン・アベイランスの学習と,ロングフォームビデオにおける今後の行動を予測するためのアプローチを実証する。
論文 参考訳(メタデータ) (2020-01-14T01:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。