論文の概要: Semantic Latent Motion for Portrait Video Generation
- arxiv url: http://arxiv.org/abs/2503.10096v1
- Date: Thu, 13 Mar 2025 06:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:03.034472
- Title: Semantic Latent Motion for Portrait Video Generation
- Title(参考訳): 画像生成のためのセマンティック潜時運動
- Authors: Qiyuan Zhang, Chenyu Wu, Wenzhang Sun, Huaize Liu, Donglin Di, Wei Chen, Changqing Zou,
- Abstract要約: Semantic Latent Motion (SeMo) はコンパクトで表現力のある動きの表現である。
SeMoは、抽象、推論、生成という3段階の効果的なフレームワークに従っている。
我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
- 参考スコア(独自算出の注目度): 19.56640370303683
- License:
- Abstract: Recent advancements in portrait video generation have been noteworthy. However, existing methods rely heavily on human priors and pre-trained generation models, which may introduce unrealistic motion and lead to inefficient inference. To address these challenges, we propose Semantic Latent Motion (SeMo), a compact and expressive motion representation. Leveraging this representation, our approach achieve both high-quality visual results and efficient inference. SeMo follows an effective three-step framework: Abstraction, Reasoning, and Generation. First, in the Abstraction step, we use a carefully designed Mask Motion Encoder to compress the subject's motion state into a compact and abstract latent motion (1D token). Second, in the Reasoning step, long-term modeling and efficient reasoning are performed in this latent space to generate motion sequences. Finally, in the Generation step, the motion dynamics serve as conditional information to guide the generation model in synthesizing realistic transitions from reference frames to target frames. Thanks to the compact and descriptive nature of Semantic Latent Motion, our method enables real-time video generation with highly realistic motion. User studies demonstrate that our approach surpasses state-of-the-art models with an 81% win rate in realism. Extensive experiments further highlight its strong compression capability, reconstruction quality, and generative potential. Moreover, its fully self-supervised nature suggests promising applications in broader video generation tasks.
- Abstract(参考訳): 近年のポートレート・ビデオ・ジェネレーションの進歩は注目に値する。
しかし、既存の手法は人間の先行モデルや事前訓練された生成モデルに大きく依存しており、非現実的な動きをもたらし、非効率な推論をもたらす可能性がある。
これらの課題に対処するために,コンパクトかつ表現力のある動き表現であるSemantic Latent Motion (SeMo)を提案する。
この表現を活用することで、我々の手法は高品質な視覚的結果と効率的な推論の両方を達成できる。
SeMoは、抽象、推論、生成という3段階の効果的なフレームワークに従っている。
まず、抽象ステップにおいて、慎重に設計されたマスクモーションエンコーダを用いて、被験者の動作状態をコンパクトで抽象的な潜伏運動(1Dトークン)に圧縮する。
第2に、推論ステップにおいて、この潜伏空間で長期モデリングと効率的な推論を行い、動き列を生成する。
最後に、生成ステップにおいて、モーションダイナミクスは、参照フレームからターゲットフレームへの現実的な遷移を合成する際に、生成モデルを誘導する条件情報として機能する。
本手法は,セマンティックラテントモーションのコンパクトで記述的な性質により,リアルタイムな映像生成を可能にする。
ユーザスタディは、我々のアプローチが、現実主義における81%の勝利率で最先端のモデルを上回ることを示した。
大規模な実験は、その強い圧縮能力、復元品質、および生成可能性をさらに強調する。
さらに、完全に自己監督された性質は、より広範なビデオ生成タスクにおける有望な応用を示唆している。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation [27.690736225683825]
動作推論を視覚合成から明確に分離する2段階のフレームワークであるMotion Dreamerを紹介する。
提案手法では,部分的ユーザ定義動作の効果的な統合を可能にするスパース・ツー・デンス動作表現であるインスタンスフローを導入している。
実験により、モーションドリーマーは既存の手法よりも優れており、より優れた動きの可視性と視覚的リアリズムを実現していることが示された。
論文 参考訳(メタデータ) (2024-11-30T17:40:49Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Dynamic Future Net: Diversified Human Motion Generation [31.987602940970888]
人間のモーションモデリングはコンピュータグラフィックス、視覚、仮想現実など多くの分野で重要である。
我々は,人間の運動力学の本質的な運動性に着目した新しい深層学習モデルであるDynamic Future Netを提案する。
我々のモデルでは、任意の時間で多数の高品質な動きを生成でき、空間と時間の両方の変動を視覚的に解析することができる。
論文 参考訳(メタデータ) (2020-08-25T02:31:41Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。