論文の概要: Flow Guided Transformable Bottleneck Networks for Motion Retargeting
- arxiv url: http://arxiv.org/abs/2106.07771v1
- Date: Mon, 14 Jun 2021 21:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 07:21:24.242768
- Title: Flow Guided Transformable Bottleneck Networks for Motion Retargeting
- Title(参考訳): モーションリターゲティングのためのフローガイド変換可能なボトルネックネットワーク
- Authors: Jian Ren, Menglei Chai, Oliver J. Woodford, Kyle Olszewski, Sergey
Tulyakov
- Abstract要約: 既存の取り組みでは、対象者ごとの長いトレーニング映像を利用して、対象者固有のモーショントランスファーモデルをトレーニングしている。
ターゲットからの1枚または数枚の画像しか必要としないモーショントランスファー技術が近年注目されている。
本稿では,トランスフォーマブル・ボトルネックネットワークにヒントを得て,画像内容の暗黙の容積表現に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 29.16125343915916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion retargeting aims to transfer the motion of one person in a
"driving" video or set of images to another person. Existing efforts leverage a
long training video from each target person to train a subject-specific motion
transfer model. However, the scalability of such methods is limited, as each
model can only generate videos for the given target subject, and such training
videos are labor-intensive to acquire and process. Few-shot motion transfer
techniques, which only require one or a few images from a target, have recently
drawn considerable attention. Methods addressing this task generally use either
2D or explicit 3D representations to transfer motion, and in doing so,
sacrifice either accurate geometric modeling or the flexibility of an
end-to-end learned representation. Inspired by the Transformable Bottleneck
Network, which renders novel views and manipulations of rigid objects, we
propose an approach based on an implicit volumetric representation of the image
content, which can then be spatially manipulated using volumetric flow fields.
We address the challenging question of how to aggregate information across
different body poses, learning flow fields that allow for combining content
from the appropriate regions of input images of highly non-rigid human subjects
performing complex motions into a single implicit volumetric representation.
This allows us to learn our 3D representation solely from videos of moving
people. Armed with both 3D object understanding and end-to-end learned
rendering, this categorically novel representation delivers state-of-the-art
image generation quality, as shown by our quantitative and qualitative
evaluations.
- Abstract(参考訳): ヒューマンモーションリターゲティング(human motion retargeting)は、ある人の動きを「運転」ビデオまたは画像セットで他の人に転送することを目的としている。
既存の取り組みでは、対象者毎の長いトレーニングビデオを活用して、主題固有のモーショントランスファーモデルをトレーニングしている。
しかし,各モデルが対象対象対象の動画のみを生成できるため,学習ビデオの取得と処理に手間がかかるため,そのような手法のスケーラビリティは限られている。
ターゲットからの1枚または数枚の画像のみを必要とするモーショントランスファー技術が最近注目されている。
この課題に対処する手法は、一般的に2次元または明示的な3次元表現を用いて動きを伝達し、それによって正確な幾何学的モデリングやエンドツーエンドの学習表現の柔軟性を犠牲にする。
剛体オブジェクトの新しいビューと操作を描画するtransformable bottleneck networkに着想を得て,画像コンテンツの暗黙的なボリューム表現に基づくアプローチを提案し,ボリュームフローフィールドを用いて空間的に操作する手法を提案する。
複雑な動作を行う非剛性な被験者の入力画像の適切な領域からのコンテンツを1つの暗黙の容積表現に組み合わせることのできる、異なる身体のポーズにまたがる情報をどのように集約するかという課題に対処する。
これにより、動いている人のビデオだけから3d表現を学べるのです。
3Dオブジェクトの理解とエンドツーエンドのレンダリングを両立させて、この分類学的に新しい表現は、定量的および定性的な評価で示されるように、最先端の画像生成品質を提供する。
関連論文リスト
- MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Self-Supervised 3D Human Pose Estimation in Static Video Via Neural
Rendering [5.568218439349004]
2D画像から3Dの人間のポーズを推定することは、コンピュータビジョンの分野における困難かつ長年の問題である。
本研究では,1人の人物を含む2次元映像から3次元ポーズを推定する手法の予備的な結果を示す。
論文 参考訳(メタデータ) (2022-10-10T09:24:07Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - On Development and Evaluation of Retargeting Human Motion and Appearance
in Monocular Videos [2.870762512009438]
人間の俳優のビデオ間の人間の動きと外観の転送は、コンピュータビジョンの重要な課題の1つです。
本稿では,競争性のある視覚品質を示すハイブリッドイメージベースレンダリング技術に基づく,新規かつ高性能なアプローチを提案する。
また,人間の動画を合成するタスクを評価するために,アノテートされた人間の動きと異なる映像からなる新しいビデオベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:17:41Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Single-Shot Freestyle Dance Reenactment [89.91619150027265]
ソースダンサーと対象者との間の動き伝達のタスクは、ポーズ伝達問題の特別なケースである。
本稿では,任意の映像シーケンスで1つの画像を再識別できる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-02T12:57:43Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。