論文の概要: Towards motion from video diffusion models
- arxiv url: http://arxiv.org/abs/2411.12831v1
- Date: Tue, 19 Nov 2024 19:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:22.592762
- Title: Towards motion from video diffusion models
- Title(参考訳): 映像拡散モデルからの運動に向けて
- Authors: Paul Janson, Tiberiu Popa, Eugene Belilovsky,
- Abstract要約: 本稿では,ビデオ拡散モデルを用いて計算したスコア蒸留サンプリング(SDS)によって導かれるSMPL-Xボディ表現を変形させることにより,人間の動作を合成することを提案する。
得られたアニメーションの忠実度を解析することにより、公開されているテキスト・ビデオ拡散モデルを用いて、動作の程度を把握できる。
- 参考スコア(独自算出の注目度): 10.493424298717864
- License:
- Abstract: Text-conditioned video diffusion models have emerged as a powerful tool in the realm of video generation and editing. But their ability to capture the nuances of human movement remains under-explored. Indeed the ability of these models to faithfully model an array of text prompts can lead to a wide host of applications in human and character animation. In this work, we take initial steps to investigate whether these models can effectively guide the synthesis of realistic human body animations. Specifically we propose to synthesize human motion by deforming an SMPL-X body representation guided by Score distillation sampling (SDS) calculated using a video diffusion model. By analyzing the fidelity of the resulting animations, we gain insights into the extent to which we can obtain motion using publicly available text-to-video diffusion models using SDS. Our findings shed light on the potential and limitations of these models for generating diverse and plausible human motions, paving the way for further research in this exciting area.
- Abstract(参考訳): テキスト条件付きビデオ拡散モデルは、ビデオ生成と編集の領域において強力なツールとして登場した。
しかし、人間の動きのニュアンスを捉える能力はいまだ解明されていない。
実際、これらのモデルがテキストプロンプトの配列を忠実にモデル化する能力は、人間とキャラクターのアニメーションにおける幅広い応用に繋がる可能性がある。
本研究では,これらのモデルが現実的な人体アニメーションの合成を効果的に導くことができるかどうかを考察する。
具体的には,ビデオ拡散モデルを用いて計算したスコア蒸留サンプリング(SDS)によって導かれるSMPL-Xの身体表現を変形させることにより,人間の動作を合成することを提案する。
得られたアニメーションの忠実度を解析することにより、SDSを用いて公開されているテキスト・ビデオ拡散モデルを用いて、動作の程度を把握できる。
我々の発見は、多種多様な人間の動きを生み出すためのモデルの可能性と限界に光を当て、このエキサイティングな領域におけるさらなる研究の道を開いた。
関連論文リスト
- Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。
また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文 参考訳(メタデータ) (2024-05-10T19:06:41Z) - Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance [25.346255905155424]
本稿では,潜伏拡散フレームワーク内での3次元人間のパラメトリックモデルを活用することで,人間の画像アニメーションの方法論を提案する。
人間の3次元パラメトリックモデルを動作誘導として表現することにより、基準画像と音源映像の動きの間に人体のパラメトリック形状アライメントを行うことができる。
提案手法は,提案した組込みデータセットに対して,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-03-21T18:52:58Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - Real-time Animation Generation and Control on Rigged Models via Large
Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。
大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文 参考訳(メタデータ) (2023-10-27T01:36:35Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文 参考訳(メタデータ) (2022-09-01T10:34:57Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。