論文の概要: Action2video: Generating Videos of Human 3D Actions
- arxiv url: http://arxiv.org/abs/2111.06925v1
- Date: Fri, 12 Nov 2021 20:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 16:22:02.244227
- Title: Action2video: Generating Videos of Human 3D Actions
- Title(参考訳): Action2 Video:人間の3Dアクションのビデオ生成
- Authors: Chuan Guo, Xinxin Zuo, Sen Wang, Xinshuang Liu, Shihao Zou, Minglun
Gong, Li Cheng
- Abstract要約: 我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
- 参考スコア(独自算出の注目度): 31.665831044217363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to tackle the interesting yet challenging problem of generating videos
of diverse and natural human motions from prescribed action categories. The key
issue lies in the ability to synthesize multiple distinct motion sequences that
are realistic in their visual appearances. It is achieved in this paper by a
two-step process that maintains internal 3D pose and shape representations,
action2motion and motion2video. Action2motion stochastically generates
plausible 3D pose sequences of a prescribed action category, which are
processed and rendered by motion2video to form 2D videos. Specifically, the Lie
algebraic theory is engaged in representing natural human motions following the
physical law of human kinematics; a temporal variational auto-encoder (VAE) is
developed that encourages diversity of output motions. Moreover, given an
additional input image of a clothed human character, an entire pipeline is
proposed to extract his/her 3D detailed shape, and to render in videos the
plausible motions from different views. This is realized by improving existing
methods to extract 3D human shapes and textures from single 2D images, rigging,
animating, and rendering to form 2D videos of human motions. It also
necessitates the curation and reannotation of 3D human motion datasets for
training purpose. Thorough empirical experiments including ablation study,
qualitative and quantitative evaluations manifest the applicability of our
approach, and demonstrate its competitiveness in addressing related tasks,
where components of our approach are compared favorably to the
state-of-the-arts.
- Abstract(参考訳): 我々は,行動カテゴリーから多様で自然な人間の動きを動画で生成するという,興味深いが困難な問題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
本論文では, 内部3次元ポーズと形状表現, アクション2モーション, モーション2ビデオの2段階のプロセスで実現した。
action2motionは、motion2videoによって処理されレンダリングされ、2dビデオを形成する、所定のアクションカテゴリの正確な3dポーズシーケンスを確率的に生成する。
特に、リー代数理論は人間の運動の物理法則に従う自然な人間の動きを表現することに従事しており、出力運動の多様性を促進する時間変化オートエンコーダ(vae)が開発されている。
さらに, 布を被った人物の入力画像が付加された場合, 3次元の詳細な形状を抽出し, 異なる視点から可塑性運動をビデオに描画するパイプライン全体を提案する。
これは、単一の2次元画像から3次元の人間の形状とテクスチャを抽出し、リギング、アニメーション、レンダリングを行い、人間の動きの2次元ビデオを形成する既存の方法を改善することで実現される。
また、トレーニング目的のために3dヒューマンモーションデータセットのキュレーションと再注釈が必要となる。
アブレーション研究,質的および定量的評価を含む徹底的な実験により,本手法の適用性が示され,本手法の構成要素が最先端と好適に比較される関連課題に対する競合性が示された。
関連論文リスト
- Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。
本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。
VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文 参考訳(メタデータ) (2024-04-15T06:38:09Z) - Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。
まず,逆撮影行動推定手法を提案する。
次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:56:58Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - Physically Plausible Animation of Human Upper Body from a Single Image [41.027391105867345]
制御可能で動的に応答し,フォトリアリスティックな人間のアニメーションを生成する新しい方法を提案する。
本システムでは,画像空間におけるインタラクションを用いて,物理的に可視な上半身アニメーション(PUBA)を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T09:36:59Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Self-Supervised 3D Human Pose Estimation in Static Video Via Neural
Rendering [5.568218439349004]
2D画像から3Dの人間のポーズを推定することは、コンピュータビジョンの分野における困難かつ長年の問題である。
本研究では,1人の人物を含む2次元映像から3次元ポーズを推定する手法の予備的な結果を示す。
論文 参考訳(メタデータ) (2022-10-10T09:24:07Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。