論文の概要: WorldWander: Bridging Egocentric and Exocentric Worlds in Video Generation
- arxiv url: http://arxiv.org/abs/2511.22098v1
- Date: Thu, 27 Nov 2025 04:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.390896
- Title: WorldWander: Bridging Egocentric and Exocentric Worlds in Video Generation
- Title(参考訳): WorldWander:ビデオ生成におけるエゴセントリックでエゴセントリックな世界
- Authors: Quanjian Song, Yiren Song, Kelly Peng, Yuan Gao, Mike Zheng Shou,
- Abstract要約: We present WorldWander, a in-context learning framework designed for translating between egocentric and exocentric worlds in video generation。
実験により、WorldWanderは優れた視点同期、文字一貫性、一般化を実現している。
- 参考スコア(独自算出の注目度): 51.1909041777449
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video diffusion models have recently achieved remarkable progress in realism and controllability. However, achieving seamless video translation across different perspectives, such as first-person (egocentric) and third-person (exocentric), remains underexplored. Bridging these perspectives is crucial for filmmaking, embodied AI, and world models. Motivated by this, we present WorldWander, an in-context learning framework tailored for translating between egocentric and exocentric worlds in video generation. Building upon advanced video diffusion transformers, WorldWander integrates (i) In-Context Perspective Alignment and (ii) Collaborative Position Encoding to efficiently model cross-view synchronization. To further support our task, we curate EgoExo-8K, a large-scale dataset containing synchronized egocentric-exocentric triplets from both synthetic and real-world scenarios. Experiments demonstrate that WorldWander achieves superior perspective synchronization, character consistency, and generalization, setting a new benchmark for egocentric-exocentric video translation.
- Abstract(参考訳): ビデオ拡散モデルは近年、リアリズムと制御可能性において顕著な進歩を遂げている。
しかし、一対一(自中心)や三対一(外中心)など、さまざまな視点でシームレスなビデオ翻訳を実現することは、まだ未定である。
これらの視点をブリッジすることは、映画製作、AI、そして世界モデルにとって不可欠である。
ビデオ生成において、エゴセントリックな世界とエクソセントリックな世界の間の翻訳に適した、コンテキスト内学習フレームワークWorldWanderを紹介する。
高度なビデオ拡散トランスフォーマーをベースとするWorldWanderが統合
(i)内的視点アライメント・アライメント
(II)クロスビュー同期を効率的にモデル化するための協調的位置符号化。
EgoExo-8Kは、合成シナリオと実世界のシナリオの両方から、シンクロナイズドエゴセントリックなエゴセントリックな三重項を含む大規模なデータセットである。
実験により、WorldWanderはより優れた視点同期、文字の一貫性、一般化を実現し、エゴセントリックなビデオ翻訳のための新しいベンチマークを設定した。
関連論文リスト
- Exo2EgoSyn: Unlocking Foundation Video Generation Models for Exocentric-to-Egocentric Video Synthesis [56.456085642852976]
Exo2EgoSynは、Exocentric-to-Egocentric(Exo2Ego)クロスビュービデオ合成をアンロックするWAN 2.2の適応である。
私たちのフレームワークは3つの重要なモジュールで構成されています。
論文 参考訳(メタデータ) (2025-11-25T11:08:37Z) - EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations [4.252119151012245]
EgoWorld(エゴワールド)は、エゴセントリックな視点を、豊富なエゴセントリックな視点から再構築する新しいフレームワークである。
提案手法は,推定された遠心深度マップから点雲を再構成し,それをエゴセントリックな視点に再投影し,拡散に基づくインペインティングを適用して,密集した意味的コヒーレントなエゴセントリックな画像を生成する。
EgoWorldは最先端のパフォーマンスを実現し、新しいオブジェクト、アクション、シーン、主題への堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-06-22T04:21:48Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - Spherical World-Locking for Audio-Visual Localization in Egocentric Videos [53.658928180166534]
我々は,エゴセントリックなシーン表現のための一般的なフレームワークとして,球状ワールドロックを提案する。
従来の2次元平面場を持つ自己中心表現と比較して、SWLは自動による課題を効果的に相殺する。
シーン表現の球面構造を保存する統一エンコーダデコーダトランスアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-08-09T22:29:04Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.881857222850083]
EgoExo-Fitnessは新しいフルボディアクション理解データセットである。
シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。
EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文 参考訳(メタデータ) (2024-06-13T07:28:45Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。