論文の概要: EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos
- arxiv url: http://arxiv.org/abs/2504.11732v1
- Date: Wed, 16 Apr 2025 03:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:46.850423
- Title: EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos
- Title(参考訳): EgoExo-Gen:エゴ中心のビデオ予測
- Authors: Jilan Xu, Yifei Huang, Baoqi Pei, Junlin Hou, Qingqiu Li, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie,
- Abstract要約: エゴ中心の動画、対応するエゴ中心のビデオの最初のフレーム、テキストによる指示が与えられたら、エゴ中心のビデオの未来的なフレームを生成することが目的である。
EgoExo-Genは、クロスビュービデオ予測のための手動オブジェクトのダイナミクスを明示的にモデル化する。
- 参考スコア(独自算出の注目度): 49.24266108952835
- License:
- Abstract: Generating videos in the first-person perspective has broad application prospects in the field of augmented reality and embodied intelligence. In this work, we explore the cross-view video prediction task, where given an exo-centric video, the first frame of the corresponding ego-centric video, and textual instructions, the goal is to generate futur frames of the ego-centric video. Inspired by the notion that hand-object interactions (HOI) in ego-centric videos represent the primary intentions and actions of the current actor, we present EgoExo-Gen that explicitly models the hand-object dynamics for cross-view video prediction. EgoExo-Gen consists of two stages. First, we design a cross-view HOI mask prediction model that anticipates the HOI masks in future ego-frames by modeling the spatio-temporal ego-exo correspondence. Next, we employ a video diffusion model to predict future ego-frames using the first ego-frame and textual instructions, while incorporating the HOI masks as structural guidance to enhance prediction quality. To facilitate training, we develop an automated pipeline to generate pseudo HOI masks for both ego- and exo-videos by exploiting vision foundation models. Extensive experiments demonstrate that our proposed EgoExo-Gen achieves better prediction performance compared to previous video prediction models on the Ego-Exo4D and H2O benchmark datasets, with the HOI masks significantly improving the generation of hands and interactive objects in the ego-centric videos.
- Abstract(参考訳): 一人称視点でビデオを生成することは、拡張現実と具体的インテリジェンスという分野で幅広い応用可能性を持っている。
本研究では,エゴ中心ビデオの最初のフレーム,対応するエゴ中心ビデオの最初のフレーム,テキストによる指示を与えられた場合,エゴ中心ビデオのフューチャフレームを生成することを目的とした,クロスビュー映像予測タスクについて検討する。
エゴ中心のビデオにおける手オブジェクトの相互作用(HOI)は、現在の俳優の意図と行動を表すという概念に着想を得て、手オブジェクトのダイナミクスを明示的にモデル化し、クロスビュービデオ予測を行う。
EgoExo-Genは2つのステージから構成される。
まず、時空間のエゴ・エゴ対応をモデル化することにより、将来のエゴフレームにおけるHOIマスクを予測できるクロスビューHOIマスク予測モデルを設計する。
次に、ビデオ拡散モデルを用いて、最初のエゴフレームとテキスト命令を用いて将来のエゴフレームを予測するとともに、HOIマスクを構造的ガイダンスとして組み込んで予測品質を向上させる。
トレーニングを容易にするために,視覚基盤モデルを利用して,エゴとエクソビデオの両方に擬似HOIマスクを生成する自動パイプラインを開発した。
Ego-Exo4D と H2O のベンチマークデータセットでは,提案した EgoExo-Gen が従来のビデオ予測モデルよりも優れた予測性能を示し,HOI マスクはエゴ中心のビデオにおける手や対話的オブジェクトの生成を著しく改善している。
関連論文リスト
- EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos [9.340890244344497]
2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。
本研究では,エゴモーション認識と一般化可能な2次元手指予測手法であるEMAGを提案する。
本モデルでは,従来手法よりも1.7%,7.0%性能が向上した。
論文 参考訳(メタデータ) (2024-05-30T13:15:18Z) - Intention-driven Ego-to-Exo Video Generation [16.942040396018736]
エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。
本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。
我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
論文 参考訳(メタデータ) (2024-03-14T09:07:31Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Generative Adversarial Network for Future Hand Segmentation from
Egocentric Video [25.308139917320673]
我々は,エゴビデオから未来のハンドマスクの時系列を予想する新たな問題を紹介した。
重要な課題は、将来の頭部の動きの時間性をモデル化することであり、これはヘッドウーンカメラの映像解析に世界的に影響を与える。
論文 参考訳(メタデータ) (2022-03-21T19:41:44Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。