論文の概要: Exo2EgoSyn: Unlocking Foundation Video Generation Models for Exocentric-to-Egocentric Video Synthesis
- arxiv url: http://arxiv.org/abs/2511.20186v1
- Date: Tue, 25 Nov 2025 11:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.418473
- Title: Exo2EgoSyn: Unlocking Foundation Video Generation Models for Exocentric-to-Egocentric Video Synthesis
- Title(参考訳): Exo2EgoSyn:Exocentric-to-Egocentricビデオ合成のためのアンロックファンデーションビデオ生成モデル
- Authors: Mohammad Mahdi, Yuqian Fu, Nedko Savov, Jiancheng Pan, Danda Pani Paudel, Luc Van Gool,
- Abstract要約: Exo2EgoSynは、Exocentric-to-Egocentric(Exo2Ego)クロスビュービデオ合成をアンロックするWAN 2.2の適応である。
私たちのフレームワークは3つの重要なモジュールで構成されています。
- 参考スコア(独自算出の注目度): 56.456085642852976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation video generation models such as WAN 2.2 exhibit strong text- and image-conditioned synthesis abilities but remain constrained to the same-view generation setting. In this work, we introduce Exo2EgoSyn, an adaptation of WAN 2.2 that unlocks Exocentric-to-Egocentric(Exo2Ego) cross-view video synthesis. Our framework consists of three key modules. Ego-Exo View Alignment(EgoExo-Align) enforces latent-space alignment between exocentric and egocentric first-frame representations, reorienting the generative space from the given exo view toward the ego view. Multi-view Exocentric Video Conditioning (MultiExoCon) aggregates multi-view exocentric videos into a unified conditioning signal, extending WAN2.2 beyond its vanilla single-image or text conditioning. Furthermore, Pose-Aware Latent Injection (PoseInj) injects relative exo-to-ego camera pose information into the latent state, guiding geometry-aware synthesis across viewpoints. Together, these modules enable high-fidelity ego view video generation from third-person observations without retraining from scratch. Experiments on ExoEgo4D validate that Exo2EgoSyn significantly improves Ego2Exo synthesis, paving the way for scalable cross-view video generation with foundation models. Source code and models will be released publicly.
- Abstract(参考訳): WAN 2.2のような基礎的なビデオ生成モデルは、強いテキストと画像条件の合成能力を示すが、同じビュー生成設定に制約されない。
そこで本研究では,Exocentric-to-Egocentric(Exo2Ego)クロスビュービデオ合成をアンロックするWAN 2.2の適応であるExo2EgoSynを紹介する。
私たちのフレームワークは3つの重要なモジュールで構成されています。
エゴエクソビューアライメント(エゴエクソビューアライメント、EgoExo View Alignment、エゴエクソビューアライメント、エゴエクソビューアライメント)は、エゴビューに対して与えられたエゴビューから生成空間を再配置し、エゴビューとエゴ中心のファーストフレーム表現の間の潜在空間アライメントを強制する。
Multi-view Exocentric Video Conditioning (MultiExoCon)は、マルチビューのExocentric Videoを統一されたコンディショニング信号に集約し、WAN2.2をバニラのシングルイメージやテキストコンディショニングを超えて拡張する。
さらに、Pose-Aware Latent Injection (PoseInj) は、相対的なエゴカメラに潜伏状態の情報を注入し、視点を越えて幾何学的認識合成を導く。
これらのモジュールは、スクラッチから再トレーニングすることなく、第三者の観察から高忠実なエゴビュービデオを生成することができる。
ExoEgo4Dの実験では、Exo2EgoSynはEgo2Exo合成を大幅に改善し、基礎モデルによるスケーラブルなクロスビュービデオ生成の道を開いた。
ソースコードとモデルは公開されます。
関連論文リスト
- Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations [47.04855334955006]
本稿では,因果的時間的ダイナミクスと相互視的アライメントを促進するマスク付きエゴエクソモデリングを提案する。
我々は、堅牢なクロスビュー理解の基礎として、人間の行動の構成的性質を捉えることの重要性を強調した。
論文 参考訳(メタデータ) (2025-03-25T14:33:32Z) - NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images [50.36605863731669]
NVComposerは、明示的な外部アライメントの必要性を排除する新しいアプローチである。
NVComposerは、生成的マルチビューNVSタスクにおいて最先端のパフォーマンスを達成する。
提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-12-04T17:58:03Z) - Intention-driven Ego-to-Exo Video Generation [16.942040396018736]
エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。
本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。
我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
論文 参考訳(メタデータ) (2024-03-14T09:07:31Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - Cross-View Exocentric to Egocentric Video Synthesis [18.575642755375107]
クロスビュービデオ合成タスクは、あるビューの動画シーケンスを、別のビューから劇的に異なるビューから生成することを目的としている。
本稿では,空間情報と時間情報の両方を学習するために,2方向の空間的時間的注意融合生成適応ネットワーク(STA-GAN)を提案する。
提案したSTA-GANは、時間枝、空間枝、注意融合の3つの部分から構成される。
論文 参考訳(メタデータ) (2021-07-07T10:00:52Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。