論文の概要: EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos
- arxiv url: http://arxiv.org/abs/2504.11732v1
- Date: Wed, 16 Apr 2025 03:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 22:06:51.861982
- Title: EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos
- Title(参考訳): EgoExo-Gen:エゴ中心のビデオ予測
- Authors: Jilan Xu, Yifei Huang, Baoqi Pei, Junlin Hou, Qingqiu Li, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie,
- Abstract要約: エゴ中心の動画、対応するエゴ中心のビデオの最初のフレーム、テキストによる指示が与えられたら、エゴ中心のビデオの未来的なフレームを生成することが目的である。
EgoExo-Genは、クロスビュービデオ予測のための手動オブジェクトのダイナミクスを明示的にモデル化する。
- 参考スコア(独自算出の注目度): 49.24266108952835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating videos in the first-person perspective has broad application prospects in the field of augmented reality and embodied intelligence. In this work, we explore the cross-view video prediction task, where given an exo-centric video, the first frame of the corresponding ego-centric video, and textual instructions, the goal is to generate futur frames of the ego-centric video. Inspired by the notion that hand-object interactions (HOI) in ego-centric videos represent the primary intentions and actions of the current actor, we present EgoExo-Gen that explicitly models the hand-object dynamics for cross-view video prediction. EgoExo-Gen consists of two stages. First, we design a cross-view HOI mask prediction model that anticipates the HOI masks in future ego-frames by modeling the spatio-temporal ego-exo correspondence. Next, we employ a video diffusion model to predict future ego-frames using the first ego-frame and textual instructions, while incorporating the HOI masks as structural guidance to enhance prediction quality. To facilitate training, we develop an automated pipeline to generate pseudo HOI masks for both ego- and exo-videos by exploiting vision foundation models. Extensive experiments demonstrate that our proposed EgoExo-Gen achieves better prediction performance compared to previous video prediction models on the Ego-Exo4D and H2O benchmark datasets, with the HOI masks significantly improving the generation of hands and interactive objects in the ego-centric videos.
- Abstract(参考訳): 一人称視点でビデオを生成することは、拡張現実と具体的インテリジェンスという分野で幅広い応用可能性を持っている。
本研究では,エゴ中心ビデオの最初のフレーム,対応するエゴ中心ビデオの最初のフレーム,テキストによる指示を与えられた場合,エゴ中心ビデオのフューチャフレームを生成することを目的とした,クロスビュー映像予測タスクについて検討する。
エゴ中心のビデオにおける手オブジェクトの相互作用(HOI)は、現在の俳優の意図と行動を表すという概念に着想を得て、手オブジェクトのダイナミクスを明示的にモデル化し、クロスビュービデオ予測を行う。
EgoExo-Genは2つのステージから構成される。
まず、時空間のエゴ・エゴ対応をモデル化することにより、将来のエゴフレームにおけるHOIマスクを予測できるクロスビューHOIマスク予測モデルを設計する。
次に、ビデオ拡散モデルを用いて、最初のエゴフレームとテキスト命令を用いて将来のエゴフレームを予測するとともに、HOIマスクを構造的ガイダンスとして組み込んで予測品質を向上させる。
トレーニングを容易にするために,視覚基盤モデルを利用して,エゴとエクソビデオの両方に擬似HOIマスクを生成する自動パイプラインを開発した。
Ego-Exo4D と H2O のベンチマークデータセットでは,提案した EgoExo-Gen が従来のビデオ予測モデルよりも優れた予測性能を示し,HOI マスクはエゴ中心のビデオにおける手や対話的オブジェクトの生成を著しく改善している。
関連論文リスト
- Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations [47.04855334955006]
本稿では,因果的時間的ダイナミクスと相互視的アライメントを促進するマスク付きエゴエクソモデリングを提案する。
我々は、堅牢なクロスビュー理解の基礎として、人間の行動の構成的性質を捉えることの重要性を強調した。
論文 参考訳(メタデータ) (2025-03-25T14:33:32Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos [9.340890244344497]
2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。
本研究では,エゴモーション認識と一般化可能な2次元手指予測手法であるEMAGを提案する。
本モデルでは,従来手法よりも1.7%,7.0%性能が向上した。
論文 参考訳(メタデータ) (2024-05-30T13:15:18Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Generative Adversarial Network for Future Hand Segmentation from
Egocentric Video [25.308139917320673]
我々は,エゴビデオから未来のハンドマスクの時系列を予想する新たな問題を紹介した。
重要な課題は、将来の頭部の動きの時間性をモデル化することであり、これはヘッドウーンカメラの映像解析に世界的に影響を与える。
論文 参考訳(メタデータ) (2022-03-21T19:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。