論文の概要: Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis
- arxiv url: http://arxiv.org/abs/2110.14147v1
- Date: Wed, 27 Oct 2021 03:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 14:26:27.874234
- Title: Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis
- Title(参考訳): 協調的な解析フロービデオ合成で踊るイメージ
- Authors: Bowen Wu, Zhenyu Xie, Xiaodan Liang, Yubei Xiao, Haoye Dong, Liang Lin
- Abstract要約: 人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでの作業は、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練したことがあるが、実際はスケーラブルではない。
本研究は,1つの人物のイメージのみを与えられた対象者に対して,映像からの動作をパロニカルに伝達するエンフィングルモデル(CPF-Net)を学習することを目的とした,より一般的な設定について研究する。
- 参考スコア(独自算出の注目度): 124.48519390371636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring human motion from a source to a target person poses great
potential in computer vision and graphics applications. A crucial step is to
manipulate sequential future motion while retaining the appearance
characteristic.Previous work has either relied on crafted 3D human models or
trained a separate model specifically for each target person, which is not
scalable in practice.This work studies a more general setting, in which we aim
to learn a \emph{single} model to parsimoniously transfer motion from a source
video to any target person given only one image of the person, named as
Collaborative Parsing-Flow Network (CPF-Net). The paucity of information
regarding the target person makes the task particularly challenging to
faithfully preserve the appearance in varying designated poses.To address this
issue, CPF-Net integrates the structured human parsing and appearance flow to
guide the realistic foreground synthesis which is merged into the background by
a spatio-temporal fusion module.In particular, CPF-Net decouples the problem
into stages of human parsing sequence generation, foreground sequence
generation and final video generation. The human parsing generation stage
captures both the pose and the body structure of the target. The appearance
flow is beneficial to keep details in synthesized frames. The integration of
human parsing and appearance flow effectively guides the generation of video
frames with realistic appearance. Finally, the dedicated designed fusion
network ensure the temporal coherence. We further collect a large set of human
dancing videos to push forward this research field. Both quantitative and
qualitative results show our method substantially improves over previous
approaches and is able to generate appealing and photo-realistic target videos
given any input person image. All source code and dataset will be released at
https://github.com/xiezhy6/CPF-Net.
- Abstract(参考訳): 人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
A crucial step is to manipulate sequential future motion while retaining the appearance characteristic.Previous work has either relied on crafted 3D human models or trained a separate model specifically for each target person, which is not scalable in practice.This work studies a more general setting, in which we aim to learn a \emph{single} model to parsimoniously transfer motion from a source video to any target person given only one image of the person, named as Collaborative Parsing-Flow Network (CPF-Net).
The paucity of information regarding the target person makes the task particularly challenging to faithfully preserve the appearance in varying designated poses.To address this issue, CPF-Net integrates the structured human parsing and appearance flow to guide the realistic foreground synthesis which is merged into the background by a spatio-temporal fusion module.In particular, CPF-Net decouples the problem into stages of human parsing sequence generation, foreground sequence generation and final video generation.
人間のパーシング生成ステージは、ターゲットのポーズと身体構造の両方をキャプチャする。
外観フローは、合成フレームに詳細を保持するために有用である。
人間のパースと外観フローの統合は、リアルな外観を持つ映像フレームの生成を効果的に導く。
最後に、専用設計の融合ネットワークは、時間的コヒーレンスを保証する。
我々はさらに,この研究分野を推進するために,人間のダンスビデオを大量に収集する。
定量的および定性的な結果から,提案手法は従来手法よりも大幅に改善され,入力された人物画像に対して魅力的でリアルなターゲットビデオを生成することができる。
すべてのソースコードとデータセットはhttps://github.com/xiezhy6/cpf-netでリリースされる。
関連論文リスト
- Do As I Do: Pose Guided Human Motion Copy [39.40271266234068]
モーションコピーは、人工知能とコンピュータビジョンにおいて興味深いが難しい課題だ。
既存のアプローチでは、通常、ターゲットのフェイクビデオを生成するために、L1またはL2損失の従来のGANを採用する。
連続学習を促進するために,ポーズ・ツー・アジュアンス生成におけるエピソード記憶モジュールを提案する。
提案手法は,PSNRとFIDをそれぞれ7.2%,12.4%改善した。
論文 参考訳(メタデータ) (2024-06-24T12:41:51Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Do You Guys Want to Dance: Zero-Shot Compositional Human Dance
Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。
そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T10:44:16Z) - Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文 参考訳(メタデータ) (2023-08-15T13:00:42Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。