論文の概要: EgoTwin: Dreaming Body and View in First Person
- arxiv url: http://arxiv.org/abs/2508.13013v1
- Date: Mon, 18 Aug 2025 15:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.454216
- Title: EgoTwin: Dreaming Body and View in First Person
- Title(参考訳): EgoTwin: ファーストパーソナライズされた身体と視界
- Authors: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu,
- Abstract要約: EgoTwinは拡散トランスフォーマーアーキテクチャ上に構築された共同ビデオモーション生成フレームワークである。
EgoTwinは人間の動きを頭部に固定し、サイバネティックスにインスパイアされた相互作用機構を組み込む。
総合的な評価のために、同期されたテキスト-ビデオ-モーション三重項の大規模実世界のデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 47.06226050137047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While exocentric video synthesis has achieved great progress, egocentric video generation remains largely underexplored, which requires modeling first-person view content along with camera motion patterns induced by the wearer's body movements. To bridge this gap, we introduce a novel task of joint egocentric video and human motion generation, characterized by two key challenges: 1) Viewpoint Alignment: the camera trajectory in the generated video must accurately align with the head trajectory derived from human motion; 2) Causal Interplay: the synthesized human motion must causally align with the observed visual dynamics across adjacent video frames. To address these challenges, we propose EgoTwin, a joint video-motion generation framework built on the diffusion transformer architecture. Specifically, EgoTwin introduces a head-centric motion representation that anchors the human motion to the head joint and incorporates a cybernetics-inspired interaction mechanism that explicitly captures the causal interplay between video and motion within attention operations. For comprehensive evaluation, we curate a large-scale real-world dataset of synchronized text-video-motion triplets and design novel metrics to assess video-motion consistency. Extensive experiments demonstrate the effectiveness of the EgoTwin framework.
- Abstract(参考訳): エキゾセントリックなビデオ合成は大きな進歩を遂げているが、エゴセントリックなビデオ生成には、着用者の身体の動きによって引き起こされるカメラの動きパターンとともに、一人称視点のコンテンツをモデル化する必要がある。
このギャップを埋めるために、私たちは2つの重要な課題を特徴とする、共同自我中心のビデオと人間のモーション生成という新しいタスクを導入する。
1) 視点アライメント: 生成された映像におけるカメラの軌跡は、人間の動きに由来する頭部の軌跡と正確に一致しなければならない。
2) 因果的相互作用: 合成された人間の動きは、隣り合うビデオフレームにわたって観察された視覚力学と因果的に一致しなければならない。
これらの課題に対処するために,拡散トランスフォーマアーキテクチャ上に構築された共同動画像生成フレームワークであるEgoTwinを提案する。
具体的には、EgoTwinは頭中心の動作表現を導入し、人間の動きを頭部に固定し、サイバネティックにインスパイアされた相互作用機構を組み込んで、注意操作中のビデオと動きの因果的相互作用を明示的にキャプチャする。
総合的な評価のために、同期されたテキスト動画三重項の大規模実世界のデータセットをキュレートし、ビデオモーションの一貫性を評価するための新しいメトリクスを設計する。
大規模な実験は、EgoTwinフレームワークの有効性を実証している。
関連論文リスト
- UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation [21.70816226149573]
本稿では、シーン認識動作合成に一対一のイメージを利用する2つの新しいタスクである、エゴセントリックモーション生成とエゴセントリックモーション予測を紹介する。
我々は,エゴセントリックデバイスに適した新しい頭部中心運動表現を備えた統一された条件付き運動拡散モデルUniEgoMotionを提案する。
UniEgoMotionは、自我中心の運動再構成において最先端のパフォーマンスを達成し、単一の自我中心の画像から動きを初めて生成する。
論文 参考訳(メタデータ) (2025-08-02T00:41:20Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - Intention-driven Ego-to-Exo Video Generation [16.942040396018736]
エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。
本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。
我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
論文 参考訳(メタデータ) (2024-03-14T09:07:31Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。