論文の概要: REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer
- arxiv url: http://arxiv.org/abs/2209.00475v1
- Date: Thu, 1 Sep 2022 14:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:55:08.046993
- Title: REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer
- Title(参考訳): REMOT: リアルな人間の動き伝達のための地域間Wholeフレームワーク
- Authors: Quanwei Yang, Xinchen Liu, Wu Liu, Hongtao Xie, Xiaoyan Gu, Lingyun
Yu, Yongdong Zhang
- Abstract要約: HVMT(Human Video Motion Transfer)は、運転者の動きを模倣した映像を生成することを目的としている。
HVMTの既存の方法は、主にGAN(Generative Adversarial Networks)を利用してワープ操作を行う。
本稿では,GANをベースとした新しい人体移動フレームワークについて述べる。
- 参考スコア(独自算出の注目度): 96.64111294772141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Video Motion Transfer (HVMT) aims to, given an image of a source
person, generate his/her video that imitates the motion of the driving person.
Existing methods for HVMT mainly exploit Generative Adversarial Networks (GANs)
to perform the warping operation based on the flow estimated from the source
person image and each driving video frame. However, these methods always
generate obvious artifacts due to the dramatic differences in poses, scales,
and shifts between the source person and the driving person. To overcome these
challenges, this paper presents a novel REgionto-whole human MOtion Transfer
(REMOT) framework based on GANs. To generate realistic motions, the REMOT
adopts a progressive generation paradigm: it first generates each body part in
the driving pose without flow-based warping, then composites all parts into a
complete person of the driving motion. Moreover, to preserve the natural global
appearance, we design a Global Alignment Module to align the scale and position
of the source person with those of the driving person based on their layouts.
Furthermore, we propose a Texture Alignment Module to keep each part of the
person aligned according to the similarity of the texture. Finally, through
extensive quantitative and qualitative experiments, our REMOT achieves
state-of-the-art results on two public benchmarks.
- Abstract(参考訳): human video motion transfer (hvmt) は、ソースの人物の画像が与えられたとき、運転者の動きを模倣したビデオを生成することを目的としている。
HVMTの既存の方法は、主にGAN(Generative Adversarial Networks)を利用して、ソース画像と各駆動ビデオフレームから推定されるフローに基づいてワープ操作を行う。
しかし、これらの方法は常に、ポーズ、スケール、およびソースの人物と運転者のシフトの劇的な違いのために明白なアーティファクトを生成する。
これらの課題を克服するために,本稿では,GANをベースとしたREMOT(Regionto-whole Human Motion Transfer)フレームワークを提案する。
現実的な動きを生成するために、REMOTはプログレッシブ・ジェネレーション・パラダイムを採用し、フローベース・ワープを使わずに駆動ポーズの各身体部分を生成し、次に全ての部分を駆動動作の完全な人体に合成する。
さらに,自然のグローバルな外観を保ちつつ,そのレイアウトに基づいて,原点の規模と位置を運転者の位置と整合させるグローバルアライメントモジュールを設計する。
さらに,テクスチャの類似性に応じて各部位を整列させるテクスチャアライメントモジュールを提案する。
最後に, 定量的・質的実験により, 2つの公開ベンチマークで最新の結果を得た。
関連論文リスト
- Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Human Motion Diffusion Model [35.05219668478535]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。
我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2022-09-29T16:27:53Z) - Motion and Appearance Adaptation for Cross-Domain Motion Transfer [36.98500700394921]
モーショントランスファーは、ドライブビデオのモーションをソースイメージに転送することを目的としている。
伝統的な単一ドメインの動き伝達アプローチは、しばしば顕著な成果物を生み出す。
クロスドメインな動き伝達のための動き適応(MAA)手法を提案する。
論文 参考訳(メタデータ) (2022-09-29T03:24:47Z) - SAGA: Stochastic Whole-Body Grasping with Contact [60.43627793243098]
人間の握り合成には、AR/VR、ビデオゲーム、ロボット工学など多くの応用がある。
本研究の目的は,体全体をつかむ動作を合成することである。3次元物体が与えられたら,物体に接近してつかむような,多様で自然な人体の動きを生成することを目的としている。
論文 参考訳(メタデータ) (2021-12-19T10:15:30Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z) - Scene-aware Generative Network for Human Motion Synthesis [125.21079898942347]
シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。
人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化する。
我々は、人間の動きと文脈シーンとの整合性を強制するための識別器を備えた、GANに基づく学習アプローチを導出する。
論文 参考訳(メタデータ) (2021-05-31T09:05:50Z) - Socially and Contextually Aware Human Motion and Pose Forecasting [48.083060946226]
本研究では,人間の動作(あるいは骨格ポーズ)と体骨格のポーズ予測の両課題に対処するための新しい枠組みを提案する。
我々は,この予測課題における重要な手がかりとして,シーンと社会的文脈の両方を取り入れることを検討する。
提案手法は,2つのソーシャルデータセットのベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-07-14T06:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。