論文の概要: On Development and Evaluation of Retargeting Human Motion and Appearance
in Monocular Videos
- arxiv url: http://arxiv.org/abs/2103.15596v1
- Date: Mon, 29 Mar 2021 13:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:50:42.834896
- Title: On Development and Evaluation of Retargeting Human Motion and Appearance
in Monocular Videos
- Title(参考訳): 単眼映像における人間の動きと外観の再ターゲティングの開発と評価
- Authors: Thiago L. Gomes and Renato Martins and Jo\~ao Ferreira and Rafael
Azevedo and Guilherme Torres and Erickson R. Nascimento
- Abstract要約: 人間の俳優のビデオ間の人間の動きと外観の転送は、コンピュータビジョンの重要な課題の1つです。
本稿では,競争性のある視覚品質を示すハイブリッドイメージベースレンダリング技術に基づく,新規かつ高性能なアプローチを提案する。
また,人間の動画を合成するタスクを評価するために,アノテートされた人間の動きと異なる映像からなる新しいビデオベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 2.870762512009438
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transferring human motion and appearance between videos of human actors
remains one of the key challenges in Computer Vision. Despite the advances from
recent image-to-image translation approaches, there are several transferring
contexts where most end-to-end learning-based retargeting methods still perform
poorly. Transferring human appearance from one actor to another is only ensured
when a strict setup has been complied, which is generally built considering
their training regime's specificities. The contribution of this paper is
two-fold: first, we propose a novel and high-performant approach based on a
hybrid image-based rendering technique that exhibits competitive visual
retargeting quality compared to state-of-the-art neural rendering approaches.
The formulation leverages user body shape into the retargeting while
considering physical constraints of the motion in 3D and the 2D image domain.
We also present a new video retargeting benchmark dataset composed of different
videos with annotated human motions to evaluate the task of synthesizing
people's videos, which can be used as a common base to improve tracking the
progress in the field. The dataset and its evaluation protocols are designed to
evaluate retargeting methods in more general and challenging conditions. Our
method is validated in several experiments, comprising publicly available
videos of actors with different shapes, motion types and camera setups. The
dataset and retargeting code are publicly available to the community at:
https://www.verlab.dcc.ufmg.br/retargeting-motion.
- Abstract(参考訳): 人間の動きと人間のアクターのビデオの出現は、コンピュータビジョンにおける重要な課題の1つだ。
近年のイメージ・ツー・イメージの翻訳手法の進歩にもかかわらず、ほとんどのエンドツーエンドの学習に基づく再ターゲティング手法がいまだに不十分な状況がいくつか存在する。
ある俳優から別の俳優に人間の外見を移すことは、厳格な設定が満たされた場合にのみ保証される。
本論文の貢献は2つある: まず, 最先端のニューラルレンダリング手法と比較して, 競争力のある視覚的リターゲティング品質を示すハイブリッド画像ベースレンダリング技術に基づく, 新規で高性能なアプローチを提案する。
3d及び2d画像領域における動きの物理的制約を考慮しつつ、ユーザ体形状を再ターゲティングに活用する。
また、人間の動画を合成するタスクを評価するために、人間の動きを付加した様々なビデオからなる新しいビデオ再ターゲットベンチマークデータセットを提案する。
データセットとその評価プロトコルは、より一般的で困難な条件下で再ターゲティングメソッドを評価するように設計されている。
本手法は,異なる形状,モーションタイプ,カメラ設定のアクターの映像を公開して,いくつかの実験で検証した。
データセットと再ターゲティングコードは、https://www.verlab.dcc.ufmg.br/retargeting-motion.comで公開されている。
関連論文リスト
- MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Humans in 4D: Reconstructing and Tracking Humans with Transformers [72.50856500760352]
我々は、人間を再構築し、時間とともに追跡するアプローチを提案する。
このアプローチの中核として、人間のメッシュリカバリのためのネットワークの完全な"トランスフォーマライズ"バージョンを提案する。
このネットワークであるHMR 2.0は、芸術の状態を前進させ、過去に1枚の画像から再構成することが困難であった異常なポーズを分析する能力を示す。
論文 参考訳(メタデータ) (2023-05-31T17:59:52Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Flow Guided Transformable Bottleneck Networks for Motion Retargeting [29.16125343915916]
既存の取り組みでは、対象者ごとの長いトレーニング映像を利用して、対象者固有のモーショントランスファーモデルをトレーニングしている。
ターゲットからの1枚または数枚の画像しか必要としないモーショントランスファー技術が近年注目されている。
本稿では,トランスフォーマブル・ボトルネックネットワークにヒントを得て,画像内容の暗黙の容積表現に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T21:58:30Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z) - Do As I Do: Transferring Human Motion and Appearance between Monocular
Videos with Spatial and Temporal Constraints [8.784162652042959]
画像からのマーカレス人間の動き推定と形状モデリングは、この課題を先進国にもたらす。
本稿では,モノクラービデオから外見や人間の動きを伝達するための統一的な定式化を提案する。
本手法は,人間の動作と外観の両方を,最先端の手法で転送することができる。
論文 参考訳(メタデータ) (2020-01-08T16:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。