論文の概要: Do as we do: Multiple Person Video-To-Video Transfer
- arxiv url: http://arxiv.org/abs/2104.04721v1
- Date: Sat, 10 Apr 2021 09:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:15:56.569799
- Title: Do as we do: Multiple Person Video-To-Video Transfer
- Title(参考訳): われわれは、複数の人からビデオへ転送する。
- Authors: Mickael Cormier, Houraalsadat Mortazavi Moshkenan, Franz L\"orch,
J\"urgen Metzler, J\"urgen Beyerer
- Abstract要約: ポーズを中間表現として用いたマルチ対人ビデオ転送のためのマーカーレス手法を提案する。
複数の人が踊ったりワークアウトしたりするソースビデオが与えられると、この方法はすべての俳優の体の動きを別のビデオ内の新しい俳優群に転送する。
本手法は,床に触れた足や被写体の相対位置など,対象映像の特定の特徴を保ちながら,身体運動を対象映像に説得的に伝達することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal is to transfer the motion of real people from a source video to a
target video with realistic results. While recent advances significantly
improved image-to-image translations, only few works account for body motions
and temporal consistency. However, those focus only on video re-targeting for a
single actor/ for single actors. In this work, we propose a marker-less
approach for multiple-person video-to-video transfer using pose as an
intermediate representation. Given a source video with multiple persons dancing
or working out, our method transfers the body motion of all actors to a new set
of actors in a different video. Differently from recent "do as I do" methods,
we focus specifically on transferring multiple person at the same time and
tackle the related identity switch problem. Our method is able to convincingly
transfer body motion to the target video, while preserving specific features of
the target video, such as feet touching the floor and relative position of the
actors. The evaluation is performed with visual quality and appearance metrics
using publicly available videos with the permission of their owners.
- Abstract(参考訳): 私たちのゴールは、実際の人の動きをソースビデオからリアルな結果のターゲットビデオに転送することです。
最近の進歩は画像から画像への翻訳を大幅に改善したが、身体の動きと時間的一貫性を考慮に入れた作品はほとんどない。
ただし、ビデオの再ターゲティングはシングルアクター/シングルアクターのみに焦点を当てている。
本研究では,ポーズを中間表現として用いたマルチ対人ビデオ転送のためのマーカーレス手法を提案する。
複数の人が踊ったりワークアウトしたりするソースビデオが与えられると、この方法はすべての俳優の体の動きを別のビデオ内の新しい俳優群に転送する。
近年の"do as i do"方式とは違って,複数の人物を同時に転送し,関連するアイデンティティスイッチ問題に取り組むことに注力している。
本手法は,床に触れた足や被写体の相対位置など,対象映像の特定の特徴を保ちながら,身体運動を対象映像に説得的に伝達することができる。
評価は、所有者の許可を得た公開ビデオを使用して、視覚品質と外観の指標で行われる。
関連論文リスト
- Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - MetaDance: Few-shot Dancing Video Retargeting via Temporal-aware
Meta-learning [51.78302763617991]
ダンスビデオは、ソースビデオからターゲット人物にダンスの動きを転送するビデオを合成することを目的としている。
従来の作業では、パーソナライズされたモデルをトレーニングするために、数千フレームのターゲットの人の数分間のビデオを収集する必要があります。
最近の研究は、数枚のフレームを利用して、目に見えない人のビデオを合成することを学ぶ、数発のダンスビデオに取り組みました。
論文 参考訳(メタデータ) (2022-01-13T09:34:20Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - On Development and Evaluation of Retargeting Human Motion and Appearance
in Monocular Videos [2.870762512009438]
人間の俳優のビデオ間の人間の動きと外観の転送は、コンピュータビジョンの重要な課題の1つです。
本稿では,競争性のある視覚品質を示すハイブリッドイメージベースレンダリング技術に基づく,新規かつ高性能なアプローチを提案する。
また,人間の動画を合成するタスクを評価するために,アノテートされた人間の動きと異なる映像からなる新しいビデオベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:17:41Z) - Layered Neural Rendering for Retiming People in Video [108.85428504808318]
そこで本研究では,通常の自然ビデオで人々をリタイピングする手法を提案する。
異なる動きを時間的に調整したり、特定の動作の速度を変更したり、選択した人々をビデオから完全に「排除」したりできます。
このモデルの主な特徴は、入力ビデオ中の各人物の直接の動きを分離するだけでなく、各人物が生成するシーンの変化と自動的に関連付けることである。
論文 参考訳(メタデータ) (2020-09-16T17:48:26Z) - Motion Capture from Internet Videos [47.943209721329474]
画像に基づく人間のポーズ推定の最近の進歩により、単一のRGBビデオから3Dの人間の動きを捉えることができる。
マルチビュービデオは一般的ではないが、特定のアクションを行う有名人のビデオはインターネット上で多く見られる。
本稿では,新しい最適化フレームワークを提案し,複数のビデオからより正確かつ詳細な動きを復元する能力を実験的に実証する。
論文 参考訳(メタデータ) (2020-08-18T13:48:37Z) - ReenactNet: Real-time Full Head Reenactment [50.32988828989691]
本稿では,人間の頭部3Dポーズ,表情,視線をソースからターゲットアクターに完全に転送できるヘッドツーヘッドシステムを提案する。
本システムでは,高忠実度,時間的スムース,写真リアルな合成ビデオが生成され,ヒトの頭部特性を音源からターゲット俳優に忠実に伝達する。
論文 参考訳(メタデータ) (2020-05-22T00:51:38Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z) - Do As I Do: Transferring Human Motion and Appearance between Monocular
Videos with Spatial and Temporal Constraints [8.784162652042959]
画像からのマーカレス人間の動き推定と形状モデリングは、この課題を先進国にもたらす。
本稿では,モノクラービデオから外見や人間の動きを伝達するための統一的な定式化を提案する。
本手法は,人間の動作と外観の両方を,最先端の手法で転送することができる。
論文 参考訳(メタデータ) (2020-01-08T16:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。