論文の概要: Deep Spatial Transformation for Pose-Guided Person Image Generation and
Animation
- arxiv url: http://arxiv.org/abs/2008.12606v1
- Date: Thu, 27 Aug 2020 08:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:11:04.938341
- Title: Deep Spatial Transformation for Pose-Guided Person Image Generation and
Animation
- Title(参考訳): Pose-Guided person Image Generation and Animation のための深部空間変換
- Authors: Yurui Ren and Ge Li and Shan Liu and Thomas H. Li
- Abstract要約: ポーズ誘導型人物画像生成とアニメーションは、元人物画像をターゲットポーズに変換することを目的としている。
畳み込みニューラルネットワークは、入力を空間的に変換する能力の欠如によって制限される。
本稿では,機能レベルでのインプットを再構築するグローバルフロー局所アテンションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.10989443332995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose-guided person image generation and animation aim to transform a source
person image to target poses. These tasks require spatial manipulation of
source data. However, Convolutional Neural Networks are limited by the lack of
ability to spatially transform the inputs. In this paper, we propose a
differentiable global-flow local-attention framework to reassemble the inputs
at the feature level. This framework first estimates global flow fields between
sources and targets. Then, corresponding local source feature patches are
sampled with content-aware local attention coefficients. We show that our
framework can spatially transform the inputs in an efficient manner. Meanwhile,
we further model the temporal consistency for the person image animation task
to generate coherent videos. The experiment results of both image generation
and animation tasks demonstrate the superiority of our model. Besides,
additional results of novel view synthesis and face image animation show that
our model is applicable to other tasks requiring spatial transformation. The
source code of our project is available at
https://github.com/RenYurui/Global-Flow-Local-Attention.
- Abstract(参考訳): ポーズ誘導型人物画像生成とアニメーションは、元人物画像をターゲットポーズに変換することを目的としている。
これらのタスクはソースデータの空間的操作を必要とする。
しかし、畳み込みニューラルネットワークは、入力を空間的に変換する能力の欠如によって制限される。
本稿では,インプットを機能レベルで再アセンブルするための微分可能なグローバルフローローカルアテンションフレームワークを提案する。
このフレームワークは、まずソースとターゲットの間のグローバルフローフィールドを推定する。
次に、対応するローカルソース特徴パッチに、コンテンツ対応ローカルアテンション係数をサンプリングする。
提案手法は,入力を効率的に空間的に変換できることを示す。
一方,人物画像アニメーションタスクの時間的一貫性をモデル化し,コヒーレントな映像を生成する。
画像生成タスクとアニメーションタスクの両方の実験結果は,モデルの優越性を示している。
また,新たなビュー合成と顔画像アニメーションの結果から,モデルが空間変換を必要とする他のタスクにも適用可能であることが示された。
プロジェクトのソースコードはhttps://github.com/RenYurui/Global-Flow-Local-Attentionで公開されています。
関連論文リスト
- Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Image2Gif: Generating Continuous Realistic Animations with Warping NODEs [0.8218964199015377]
本稿では,スムーズなアニメーション(ビデオフレーム)を連続的に生成するための新しいフレームワークであるウォーピングニューラルODEを提案する。
これにより、フレーム間の無限に小さな時間ステップでアニメーションの滑らかさと現実性を達成することができる。
本稿では,GAN(Generative Adversarial Network)や損失$L$など,異なるトレーニング環境下で2フレームのアニメーションを生成する上で,我々の作業の適用例を示す。
論文 参考訳(メタデータ) (2022-05-09T18:39:47Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z) - Deep Image Spatial Transformation for Person Image Generation [31.966927317737873]
本稿では,機能レベルでのインプットを再構築するグローバルフロー局所アテンションフレームワークを提案する。
本モデルでは,まずソースとターゲット間の大域的相関を計算し,流れ場を予測する。
得られた局所的注意係数を用いたコンテンツ認識サンプリング手法を用いて,ソース特性のワープを行う。
論文 参考訳(メタデータ) (2020-03-02T07:31:00Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。