論文の概要: Towards motion from video diffusion models
- arxiv url: http://arxiv.org/abs/2411.12831v1
- Date: Tue, 19 Nov 2024 19:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:22.592762
- Title: Towards motion from video diffusion models
- Title(参考訳): 映像拡散モデルからの運動に向けて
- Authors: Paul Janson, Tiberiu Popa, Eugene Belilovsky,
- Abstract要約: 本稿では,ビデオ拡散モデルを用いて計算したスコア蒸留サンプリング(SDS)によって導かれるSMPL-Xボディ表現を変形させることにより,人間の動作を合成することを提案する。
得られたアニメーションの忠実度を解析することにより、公開されているテキスト・ビデオ拡散モデルを用いて、動作の程度を把握できる。
- 参考スコア(独自算出の注目度): 10.493424298717864
- License:
- Abstract: Text-conditioned video diffusion models have emerged as a powerful tool in the realm of video generation and editing. But their ability to capture the nuances of human movement remains under-explored. Indeed the ability of these models to faithfully model an array of text prompts can lead to a wide host of applications in human and character animation. In this work, we take initial steps to investigate whether these models can effectively guide the synthesis of realistic human body animations. Specifically we propose to synthesize human motion by deforming an SMPL-X body representation guided by Score distillation sampling (SDS) calculated using a video diffusion model. By analyzing the fidelity of the resulting animations, we gain insights into the extent to which we can obtain motion using publicly available text-to-video diffusion models using SDS. Our findings shed light on the potential and limitations of these models for generating diverse and plausible human motions, paving the way for further research in this exciting area.
- Abstract(参考訳): テキスト条件付きビデオ拡散モデルは、ビデオ生成と編集の領域において強力なツールとして登場した。
しかし、人間の動きのニュアンスを捉える能力はいまだ解明されていない。
実際、これらのモデルがテキストプロンプトの配列を忠実にモデル化する能力は、人間とキャラクターのアニメーションにおける幅広い応用に繋がる可能性がある。
本研究では,これらのモデルが現実的な人体アニメーションの合成を効果的に導くことができるかどうかを考察する。
具体的には,ビデオ拡散モデルを用いて計算したスコア蒸留サンプリング(SDS)によって導かれるSMPL-Xの身体表現を変形させることにより,人間の動作を合成することを提案する。
得られたアニメーションの忠実度を解析することにより、SDSを用いて公開されているテキスト・ビデオ拡散モデルを用いて、動作の程度を把握できる。
我々の発見は、多種多様な人間の動きを生み出すためのモデルの可能性と限界に光を当て、このエキサイティングな領域におけるさらなる研究の道を開いた。
関連論文リスト
- DirectorLLM for Human-Centric Video Generation [46.37441947526771]
ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。
我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
論文 参考訳(メタデータ) (2024-12-19T03:10:26Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Motion Dreamer: Realizing Physically Coherent Video Generation through Scene-Aware Motion Reasoning [27.690736225683825]
本稿では,2段階のビデオ生成フレームワークであるbfMotion Dreamerを提案する。
高忠実度ビデオ合成から動き推論を分離することにより、より正確で物理的に妥当な動き生成を可能にする。
我々の研究は、より一貫性があり現実的な方法で物理的相互作用を推論できるモデルを作成するための新しい道を開く。
論文 参考訳(メタデータ) (2024-11-30T17:40:49Z) - Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance [25.346255905155424]
本稿では,潜伏拡散フレームワーク内での3次元人間のパラメトリックモデルを活用することで,人間の画像アニメーションの方法論を提案する。
人間の3次元パラメトリックモデルを動作誘導として表現することにより、基準画像と音源映像の動きの間に人体のパラメトリック形状アライメントを行うことができる。
提案手法は,提案した組込みデータセットに対して,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-03-21T18:52:58Z) - Real-time Animation Generation and Control on Rigged Models via Large
Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。
大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文 参考訳(メタデータ) (2023-10-27T01:36:35Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文 参考訳(メタデータ) (2022-09-01T10:34:57Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。