論文の概要: Pose-guided Generative Adversarial Net for Novel View Action Synthesis
- arxiv url: http://arxiv.org/abs/2110.07993v1
- Date: Fri, 15 Oct 2021 10:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:53:38.983477
- Title: Pose-guided Generative Adversarial Net for Novel View Action Synthesis
- Title(参考訳): 新しい視点行動合成のためのpose-guided Generative Adversarial Net
- Authors: Xianhang Li, Junhao Zhang, Kunchang Li, Shruti Vyas, Yogesh S Rawat
- Abstract要約: アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。
我々は Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。
我々は、ターゲットビューにおけるシーケンシャルな映像特徴を効果的に生成するために、新しいローカル・グローバル空間変換モジュールを用いる。
- 参考スコア(独自算出の注目度): 6.019777076722422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the problem of novel-view human action synthesis. Given an action
video, the goal is to generate the same action from an unseen viewpoint.
Naturally, novel view video synthesis is more challenging than image synthesis.
It requires the synthesis of a sequence of realistic frames with temporal
coherency. Besides, transferring the different actions to a novel target view
requires awareness of action category and viewpoint change simultaneously. To
address these challenges, we propose a novel framework named Pose-guided Action
Separable Generative Adversarial Net (PAS-GAN), which utilizes pose to
alleviate the difficulty of this task. First, we propose a recurrent
pose-transformation module which transforms actions from the source view to the
target view and generates novel view pose sequence in 2D coordinate space.
Second, a well-transformed pose sequence enables us to separatethe action and
background in the target view. We employ a novel local-global spatial
transformation module to effectively generate sequential video features in the
target view using these action and background features. Finally, the generated
video features are used to synthesize human action with the help of a 3D
decoder. Moreover, to focus on dynamic action in the video, we propose a novel
multi-scale action-separable loss which further improves the video quality. We
conduct extensive experiments on two large-scale multi-view human action
datasets, NTU-RGBD and PKU-MMD, demonstrating the effectiveness of PAS-GAN
which outperforms existing approaches.
- Abstract(参考訳): 我々は、新しい視点の人間行動合成の問題に焦点を当てる。
アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。
当然、新しいビュービデオ合成は画像合成よりも難しい。
時間的コヒーレンシーを持つ現実的なフレーム列の合成が必要である。
さらに、異なるアクションを新しいターゲットビューに移すには、アクションカテゴリと視点の変更を同時に認識する必要がある。
これらの課題に対処するため、我々は、この課題の難易度を軽減するためにポーズを利用する、Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。
まず,ソースビューからターゲットビューへアクションを変換し,2次元座標空間で新たなビューポーズ列を生成する,再帰的なポーズ変換モジュールを提案する。
第2に、十分に変換されたポーズシーケンスにより、ターゲットビューにおけるアクションとバックグラウンドを分離できる。
我々は,これらの動作と背景機能を用いて,ターゲット映像の逐次的特徴を効果的に生成するために,新しい局所的グローバル空間変換モジュールを用いる。
最後に、生成されたビデオ機能は、3Dデコーダの助けを借りて人間のアクションを合成するために使用される。
さらに,ビデオの動的動作に焦点を合わせるために,映像の質をさらに向上させる新しいマルチスケールアクション分離型損失を提案する。
NTU-RGBDとPKU-MMDの2つの大規模多視点人間行動データセットについて広範な実験を行い、既存のアプローチよりも優れたPAS-GANの有効性を実証した。
関連論文リスト
- ViVid-1-to-3: Novel View Synthesis with Video Diffusion Models [33.760292331843104]
単一のイメージからオブジェクトの新たなビューを生成することは、難しい作業です。
近年,拡散に基づくビュー合成法は大きな進歩を見せている。
本稿では,事前学習したビデオ拡散モデルを用いた簡単な方法を示す。
論文 参考訳(メタデータ) (2023-12-03T06:50:15Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [42.925592662547814]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - Consistent View Synthesis with Pose-Guided Diffusion Models [51.37925069307313]
単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:22Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。
この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。
実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2022-05-25T18:20:01Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - LARNet: Latent Action Representation for Human Action Synthesis [3.3454373538792552]
我々は、人間のアクションビデオを生成するための新しいエンドツーエンドアプローチであるLARNetを提案する。
我々は、推論中に駆動ビデオが不要になるのを避けるために、潜時空間でのアクションダイナミクスを学習する。
提案手法を実世界の4つの行動データセットで評価する。
論文 参考訳(メタデータ) (2021-10-21T05:04:32Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。