論文の概要: LatentMove: Towards Complex Human Movement Video Generation
- arxiv url: http://arxiv.org/abs/2505.22046v1
- Date: Wed, 28 May 2025 07:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.463501
- Title: LatentMove: Towards Complex Human Movement Video Generation
- Title(参考訳): LatentMove: 複雑なヒューマンモーションビデオ生成を目指して
- Authors: Ashkan Taghipour, Morteza Ghahremani, Mohammed Bennamoun, Farid Boussaid, Aref Miri Rekavandi, Zinuo Li, Qiuhong Ke, Hamid Laga,
- Abstract要約: 我々は、高ダイナミックな人間のアニメーションに特化して設計されたDiTベースのフレームワークであるLatentMoveを提示する。
アーキテクチャには条件制御ブランチと学習可能なフェイス/ボディトークンが組み込まれており、フレーム間のきめ細かい詳細や一貫性を保っている。
I2Vシステムのロバスト性を評価するために設計された多種多様で挑戦的な人間の動きを特徴付けるデータセットである複合Human-Videos(CHV)を紹介する。
- 参考スコア(独自算出の注目度): 35.83863053692456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-video (I2V) generation seeks to produce realistic motion sequences from a single reference image. Although recent methods exhibit strong temporal consistency, they often struggle when dealing with complex, non-repetitive human movements, leading to unnatural deformations. To tackle this issue, we present LatentMove, a DiT-based framework specifically tailored for highly dynamic human animation. Our architecture incorporates a conditional control branch and learnable face/body tokens to preserve consistency as well as fine-grained details across frames. We introduce Complex-Human-Videos (CHV), a dataset featuring diverse, challenging human motions designed to benchmark the robustness of I2V systems. We also introduce two metrics to assess the flow and silhouette consistency of generated videos with their ground truth. Experimental results indicate that LatentMove substantially improves human animation quality--particularly when handling rapid, intricate movements--thereby pushing the boundaries of I2V generation. The code, the CHV dataset, and the evaluation metrics will be available at https://github.com/ --.
- Abstract(参考訳): イメージ・トゥ・ビデオ(I2V)生成は、単一の参照画像からリアルなモーションシーケンスを生成する。
最近の手法は強い時間的一貫性を示すが、複雑な非反復的な人間の動きを扱う際にしばしば苦労し、不自然な変形を引き起こす。
この問題に対処するために、高ダイナミックなヒューマンアニメーションに特化したDiTベースのフレームワークであるLatentMoveを紹介した。
アーキテクチャには条件制御ブランチと学習可能なフェイス/ボディトークンが組み込まれており、フレーム間のきめ細かい詳細や一貫性を保っている。
I2Vシステムのロバスト性を評価するために設計された多種多様で挑戦的な人間の動きを特徴付けるデータセットである複合Human-Videos(CHV)を紹介する。
また,生成したビデオの流れとシルエットの整合性を評価するための2つの指標も導入した。
実験結果から,RatntMoveは,高速かつ複雑な動作を扱う場合,特にI2V生成の境界を推し進めることで,人間のアニメーション品質を大幅に向上することが示された。
コード、CHVデータセット、評価メトリクスはhttps://github.com/ --.com/から入手できる。
関連論文リスト
- EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation [58.41979933166173]
EvAnimateは、条件付き人間の画像アニメーションにおいて、イベントストリームを堅牢で正確なモーションキューとして活用する最初の方法である。
高品質で時間的コヒーレントなアニメーションはデュアルブランチアーキテクチャによって実現される。
実験結果から,従来の映像由来のキューが短いシナリオにおいて,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2025-03-24T11:05:41Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。