論文の概要: MetaDance: Few-shot Dancing Video Retargeting via Temporal-aware
Meta-learning
- arxiv url: http://arxiv.org/abs/2201.04851v1
- Date: Thu, 13 Jan 2022 09:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:53:29.040184
- Title: MetaDance: Few-shot Dancing Video Retargeting via Temporal-aware
Meta-learning
- Title(参考訳): MetaDance: 時間認識メタ学習によるビデオ再ターゲティング
- Authors: Yuying Ge, Yibing Song, Ruimao Zhang and Ping Luo
- Abstract要約: ダンスビデオは、ソースビデオからターゲット人物にダンスの動きを転送するビデオを合成することを目的としている。
従来の作業では、パーソナライズされたモデルをトレーニングするために、数千フレームのターゲットの人の数分間のビデオを収集する必要があります。
最近の研究は、数枚のフレームを利用して、目に見えない人のビデオを合成することを学ぶ、数発のダンスビデオに取り組みました。
- 参考スコア(独自算出の注目度): 51.78302763617991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dancing video retargeting aims to synthesize a video that transfers the dance
movements from a source video to a target person. Previous work need collect a
several-minute-long video of a target person with thousands of frames to train
a personalized model. However, the trained model can only generate videos of
the same person. To address the limitations, recent work tackled few-shot
dancing video retargeting, which learns to synthesize videos of unseen persons
by leveraging a few frames of them. In practice, given a few frames of a
person, these work simply regarded them as a batch of individual images without
temporal correlations, thus generating temporally incoherent dancing videos of
low visual quality. In this work, we model a few frames of a person as a series
of dancing moves, where each move contains two consecutive frames, to extract
the appearance patterns and the temporal dynamics of this person. We propose
MetaDance, which utilizes temporal-aware meta-learning to optimize the
initialization of a model through the synthesis of dancing moves, such that the
meta-trained model can be efficiently tuned towards enhanced visual quality and
strengthened temporal stability for unseen persons with a few frames. Extensive
evaluations show large superiority of our method.
- Abstract(参考訳): Dancing video retargetingは、ソースビデオからターゲット人物にダンスの動きを転送するビデオを合成することを目的としている。
従来の作業では、パーソナライズされたモデルをトレーニングするために、数千フレームのターゲットの人の数分間のビデオを収集する必要があります。
しかし、訓練されたモデルは同一人物のビデオしか生成できない。
この制限に対処するため、近年の作業では、数フレームのフレームを利用して、見えない人のビデオを合成することを学ぶ、数ショットのダンスビデオリターゲティングに取り組んでいる。
実際には、人の数フレームを考慮に入れれば、これらの作品は単に時間的相関のない個々の画像の集合と見なすだけで、視覚的品質の低い時間的非コヒーレントなダンスビデオを生成する。
本研究では,人物の出現パターンと時間的ダイナミクスを抽出し,各動きが連続する2つのフレームを含む一連のダンス動作として,人物のいくつかのフレームをモデル化する。
本稿では、時間認識型メタラーニングを利用して、ダンスの動きを合成することで、モデルの初期化を最適化し、メタ訓練されたモデルは、視覚的品質の向上と、数フレームの未確認者に対する時間的安定性の強化に向けて効率的に調整できるメタダンスを提案する。
広範囲な評価により,本手法の優位性を示した。
関連論文リスト
- Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。
具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。
形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - Do as we do: Multiple Person Video-To-Video Transfer [0.0]
ポーズを中間表現として用いたマルチ対人ビデオ転送のためのマーカーレス手法を提案する。
複数の人が踊ったりワークアウトしたりするソースビデオが与えられると、この方法はすべての俳優の体の動きを別のビデオ内の新しい俳優群に転送する。
本手法は,床に触れた足や被写体の相対位置など,対象映像の特定の特徴を保ちながら,身体運動を対象映像に説得的に伝達することができる。
論文 参考訳(メタデータ) (2021-04-10T09:26:31Z) - Layered Neural Rendering for Retiming People in Video [108.85428504808318]
そこで本研究では,通常の自然ビデオで人々をリタイピングする手法を提案する。
異なる動きを時間的に調整したり、特定の動作の速度を変更したり、選択した人々をビデオから完全に「排除」したりできます。
このモデルの主な特徴は、入力ビデオ中の各人物の直接の動きを分離するだけでなく、各人物が生成するシーンの変化と自動的に関連付けることである。
論文 参考訳(メタデータ) (2020-09-16T17:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。