論文の概要: ViMo: Generating Motions from Casual Videos
- arxiv url: http://arxiv.org/abs/2408.06614v1
- Date: Tue, 13 Aug 2024 03:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:46:15.901991
- Title: ViMo: Generating Motions from Casual Videos
- Title(参考訳): ViMo:カジュアルビデオから動きを生成する
- Authors: Liangdong Qiu, Chengxing Yu, Yanran Li, Zhao Wang, Haibin Huang, Chongyang Ma, Di Zhang, Pengfei Wan, Xiaoguang Han,
- Abstract要約: ビデオから動画へ生成する新しいフレームワーク(ViMo)を提案する。
ViMoは、未完成のビデオコンテンツの膨大な量を生かして、多種多様な3Dモーションを作り出すことができる。
実験結果から、高速な動き、様々な視点、あるいは頻繁なオクルージョンが存在するビデオであっても、提案モデルが自然な動きを生成できることを示した。
- 参考スコア(独自算出の注目度): 34.19904765033005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although humans have the innate ability to imagine multiple possible actions from videos, it remains an extraordinary challenge for computers due to the intricate camera movements and montages. Most existing motion generation methods predominantly rely on manually collected motion datasets, usually tediously sourced from motion capture (Mocap) systems or Multi-View cameras, unavoidably resulting in a limited size that severely undermines their generalizability. Inspired by recent advance of diffusion models, we probe a simple and effective way to capture motions from videos and propose a novel Video-to-Motion-Generation framework (ViMo) which could leverage the immense trove of untapped video content to produce abundant and diverse 3D human motions. Distinct from prior work, our videos could be more causal, including complicated camera movements and occlusions. Striking experimental results demonstrate the proposed model could generate natural motions even for videos where rapid movements, varying perspectives, or frequent occlusions might exist. We also show this work could enable three important downstream applications, such as generating dancing motions according to arbitrary music and source video style. Extensive experimental results prove that our model offers an effective and scalable way to generate diversity and realistic motions. Code and demos will be public soon.
- Abstract(参考訳): 人間は、ビデオから複数のアクションを想像できる能力を持っているが、複雑なカメラの動きとモンタージュのために、コンピュータにとって驚くべき挑戦だ。
既存のモーション生成手法のほとんどは、手作業で収集したモーションデータセットに依存しており、通常はモーションキャプチャ(Mocap)システムやマルチビューカメラから退屈にソースされている。
近年の拡散モデルの発展に触発されて,映像から映像をキャプチャするためのシンプルで効果的な手法を探索し,未使用映像の膨大なトロブを利用して多種多様な3次元モーションを生成できる新しいビデオ・トゥ・モーション・ジェネレーション・フレームワーク(ViMo)を提案する。
これまでの作業とは違って、私たちのビデオは複雑なカメラの動きやオクルージョンなど、もっと因果関係があるかもしれない。
実験結果から、高速な動き、様々な視点、あるいは頻繁なオクルージョンが存在するビデオであっても、提案モデルが自然な動きを生成できることを示した。
また、この研究により、任意の音楽やソース・ビデオのスタイルに応じてダンス・モーションを生成するなど、3つの重要なダウンストリーム・アプリケーションを可能にすることを示す。
広範にわたる実験結果から,本モデルは多様性と現実的な動きを効果的かつスケーラブルに生成できることを示した。
コードとデモは近く公開される。
関連論文リスト
- Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Motion Capture from Internet Videos [47.943209721329474]
画像に基づく人間のポーズ推定の最近の進歩により、単一のRGBビデオから3Dの人間の動きを捉えることができる。
マルチビュービデオは一般的ではないが、特定のアクションを行う有名人のビデオはインターネット上で多く見られる。
本稿では,新しい最適化フレームワークを提案し,複数のビデオからより正確かつ詳細な動きを復元する能力を実験的に実証する。
論文 参考訳(メタデータ) (2020-08-18T13:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。