論文の概要: EgoX: Egocentric Video Generation from a Single Exocentric Video
- arxiv url: http://arxiv.org/abs/2512.08269v1
- Date: Tue, 09 Dec 2025 05:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.827091
- Title: EgoX: Egocentric Video Generation from a Single Exocentric Video
- Title(参考訳): EgoX:エゴセントリックな動画を1つのエゴセントリックなビデオから生成
- Authors: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo,
- Abstract要約: EgoXは,1つのインプットからエゴセントリックなビデオを生成するための新しいフレームワークである。
提案手法は,不明瞭でリアルなエゴシックなビデオ生成を実現すると同時に,未確認映像のスケーラビリティとロバスト性を実証する。
- 参考スコア(独自算出の注目度): 46.41583107241048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.
- Abstract(参考訳): エゴセントリックな認識は、人間が自分の視点で世界を直接経験し、理解することを可能にします。
エキゾセントリックな(三人称)ビデオをエゴセントリックな(第一人称)ビデオに変換すると、没入的な理解の新たな可能性が開ける。
このタスクは、幾何学的に一貫した方法で見えない領域を合成しながら、目に見えるコンテンツを忠実に保存する必要がある。
そこで本研究では,エゴセントリックな1つの入力からエゴセントリックなビデオを生成する新しいフレームワークであるEgoXを提案する。
EgoXは、軽量なLoRA適応を通じて、大規模ビデオ拡散モデルの事前訓練された時空間知識を活用し、幅とチャネルワイド結合を介して、エゴセントリックとエゴセントリックの先行を結合した統一条件付け戦略を導入する。
さらに、幾何学誘導自己認識機構は、空間的に関係のある領域に選択的に参加し、幾何学的コヒーレンスと高い視覚的忠実性を確保する。
提案手法は,不明瞭でリアルなエゴシックなビデオ生成を実現すると同時に,目に見えないビデオやインザワイルドビデオにまたがる強力なスケーラビリティとロバスト性を実証する。
関連論文リスト
- WorldWander: Bridging Egocentric and Exocentric Worlds in Video Generation [51.1909041777449]
We present WorldWander, a in-context learning framework designed for translating between egocentric and exocentric worlds in video generation。
実験により、WorldWanderは優れた視点同期、文字一貫性、一般化を実現している。
論文 参考訳(メタデータ) (2025-11-27T04:40:37Z) - Fine-grained Spatiotemporal Grounding on Egocentric Videos [13.319346673043286]
EgoMaskは、エゴセントリックビデオの微細時間グラウンド化のための最初のピクセルレベルのベンチマークである。
EgoMaskは、式やオブジェクトマスクを参照するアノテーションパイプラインによって構築されている。
また、モデル開発を容易にする大規模なトレーニングデータセットであるEgoMask-Trainも作成しています。
論文 参考訳(メタデータ) (2025-08-01T10:53:27Z) - EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations [4.252119151012245]
EgoWorld(エゴワールド)は、エゴセントリックな視点を、豊富なエゴセントリックな視点から再構築する新しいフレームワークである。
提案手法は,推定された遠心深度マップから点雲を再構成し,それをエゴセントリックな視点に再投影し,拡散に基づくインペインティングを適用して,密集した意味的コヒーレントなエゴセントリックな画像を生成する。
EgoWorldは最先端のパフォーマンスを実現し、新しいオブジェクト、アクション、シーン、主題への堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-06-22T04:21:48Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - Egocentric and Exocentric Methods: A Short Survey [25.41820386246096]
エゴセントリックな視覚は、カメラ装着者の視点からシーンを捉えます。
外見中心の視覚はシーン全体のコンテキストを捉えます。
エゴとエクソビューの併用モデリングは、次世代AIエージェントの開発に不可欠である。
論文 参考訳(メタデータ) (2024-10-27T22:38:51Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。