Fugu-MT 論文翻訳(概要): Egocentric scene context for human-centric environment understanding from video

論文の概要: Egocentric scene context for human-centric environment understanding from video

arxiv url: http://arxiv.org/abs/2207.11365v1
Date: Fri, 22 Jul 2022 22:39:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-26 14:25:32.132474
Title: Egocentric scene context for human-centric environment understanding from video
Title（参考訳）: 映像からの人間中心環境理解のためのエゴセントリックシーンコンテキスト
Authors: Tushar Nagarajan, Santhosh Kumar Ramakrishnan, Ruta Desai, James Hillis, Kristen Grauman
Abstract要約: ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測可能な表現を学習することで、自我中心の映像とカメラのポーズを時間とともに結びつけるアプローチを提案する。
参考スコア（独自算出の注目度）: 74.239500776461
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: First-person video highlights a camera-wearer's activities in the context of their persistent environment. However, current video understanding approaches reason over visual features from short video clips that are detached from the underlying physical space and only capture what is directly seen. We present an approach that links egocentric video and camera pose over time by learning representations that are predictive of the camera-wearer's (potentially unseen) local surroundings to facilitate human-centric environment understanding. We train such models using videos from agents in simulated 3D environments where the environment is fully observable, and test them on real-world videos of house tours from unseen environments. We show that by grounding videos in their physical environment, our models surpass traditional scene classification models at predicting which room a camera-wearer is in (where frame-level information is insufficient), and can leverage this grounding to localize video moments corresponding to environment-centric queries, outperforming prior methods. Project page: http://vision.cs.utexas.edu/projects/ego-scene-context/
Abstract（参考訳）: ファーストパーソンビデオは、カメラ着用者の永続的な環境の文脈での活動を強調する。しかし、現在のビデオ理解のアプローチは、下層の物理的空間から切り離され、直接見えるもののみをキャプチャする短いビデオクリップから視覚的特徴を引き出す。本稿では,人間中心の環境理解を促進するために,カメラ装着者の(潜在的に見えない)局所環境を予測した表現を学習することにより,エゴセントリック映像とカメラポーズを時間とともにリンクする手法を提案する。環境が完全に観察可能なシミュレーション3D環境のエージェントからのビデオを用いてそのようなモデルを訓練し、見知らぬ環境からのハウスツアーの実際のビデオでテストする。映像を物理的環境に接地することで,カメラ装着者がどの部屋にいるか(フレームレベルの情報が不足している)を予測できる従来のシーン分類モデルに勝ることを示し,環境中心のクエリに対応するビデオモーメントのローカライズに活用し,先行手法を上回っている。プロジェクトページ: http://vision.cs.utexas.edu/projects/ego-scene-context/

関連論文リスト

Whole-Body Conditioned Egocentric Video Prediction [98.94980209293776]
我々は、人間行動(PEVA)からエゴ中心のビデオを予測するモデルを訓練する。身体の関節階層によって構成される運動的ポーズの軌跡を条件にすることで,人間の身体行動が1対1の視点から環境をどう形成するかをシミュレートする。我々の研究は、複雑な現実世界の環境をモデル化し、人間の視点から映像を予測するエージェントの振る舞いを具体化するための最初の試みである。
論文参考訳（メタデータ） (2025-06-26T17:59:59Z)
PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文参考訳（メタデータ） (2025-06-11T17:59:53Z)
DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric Videos [3.2771631221674333]
我々は、エゴセントリックシーンを永続的、動的、アクターベースのコンポーネントに分解するフレームワークであるDynamic Image-Video Feature Fields (DIV FF)を紹介する。我々のモデルは、詳細なセグメンテーションを可能にし、余裕を捉え、周囲を理解し、時間とともに一貫した理解を維持する。
論文参考訳（メタデータ） (2025-03-11T11:55:04Z)
EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatars [56.56236652774294]
本研究では,光合成デジタルアバターを共同でモデル化し,同時に1つの自我中心映像から駆動する人物中心型テレプレゼンス手法を提案する。提案手法は,エゴセントリック・フォトリアル・テレプレゼンスへの明確な一歩として,ベースラインと競合する手法に優れることを示す。
論文参考訳（メタデータ） (2024-09-22T22:50:27Z)
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文参考訳（メタデータ） (2024-06-13T16:10:19Z)
EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。 EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文参考訳（メタデータ） (2024-01-16T18:55:22Z)
Self-supervised video pretraining yields human-aligned visual representations [10.406358397515838]
一般的な表現は、画像理解タスクにおける事前ビデオ事前学習法よりもはるかに優れている。 VITO表現は、画像、ビデオ、および逆向きに訓練されたものよりも、自然および合成的な変形に対して著しく堅牢である。これらの結果は、ビデオ事前学習は、視覚世界の統一的、堅牢で、人間と協調した表現を学習する簡単な方法になり得ることを示唆している。
論文参考訳（メタデータ） (2022-10-12T17:30:12Z)
Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文参考訳（メタデータ） (2021-10-13T22:19:32Z)
EGO-TOPO: Environment Affordances from Egocentric Video [104.77363598496133]
本稿では,エゴセントリックビデオから直接学習した環境割当モデルを提案する。提案手法は,空間を一対一の活動から導かれた位相写像に分解する。 EPIC-Kitchens と EGTEA+ では,シーン・アベイランスの学習と,ロングフォームビデオにおける今後の行動を予測するためのアプローチを実証する。
論文参考訳（メタデータ） (2020-01-14T01:20:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。