論文の概要: Delving into the Frequency: Temporally Consistent Human Motion Transfer
in the Fourier Space
- arxiv url: http://arxiv.org/abs/2209.00233v1
- Date: Thu, 1 Sep 2022 05:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:57:07.033961
- Title: Delving into the Frequency: Temporally Consistent Human Motion Transfer
in the Fourier Space
- Title(参考訳): 周波数に埋もれ込む:フーリエ空間における時間的に連続した人間の運動伝達
- Authors: Guang Yang, Wu Liu, Xinchen Liu, Xiaoyan Gu, Juan Cao, Jintao Li
- Abstract要約: 人間の動き伝達は、写真リアリスティックビデオと時間的に一貫性のあるビデオの合成を指す。
現在の合成ビデオは、ビデオの品質を著しく低下させるシーケンシャルフレームにおける時間的不整合に悩まされている。
本稿では,FreMOTRと命名された新しい周波数ベースのヒューマンモードTRansferフレームワークを提案し,合成ビデオの空間的アーティファクトと時間的不整合を効果的に緩和する。
- 参考スコア(独自算出の注目度): 34.353035276767336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion transfer refers to synthesizing photo-realistic and temporally
coherent videos that enable one person to imitate the motion of others.
However, current synthetic videos suffer from the temporal inconsistency in
sequential frames that significantly degrades the video quality, yet is far
from solved by existing methods in the pixel domain. Recently, some works on
DeepFake detection try to distinguish the natural and synthetic images in the
frequency domain because of the frequency insufficiency of image synthesizing
methods. Nonetheless, there is no work to study the temporal inconsistency of
synthetic videos from the aspects of the frequency-domain gap between natural
and synthetic videos. In this paper, we propose to delve into the frequency
space for temporally consistent human motion transfer. First of all, we make
the first comprehensive analysis of natural and synthetic videos in the
frequency domain to reveal the frequency gap in both the spatial dimension of
individual frames and the temporal dimension of the video. To close the
frequency gap between the natural and synthetic videos, we propose a novel
Frequency-based human MOtion TRansfer framework, named FreMOTR, which can
effectively mitigate the spatial artifacts and the temporal inconsistency of
the synthesized videos. FreMOTR explores two novel frequency-based
regularization modules: 1) the Frequency-domain Appearance Regularization (FAR)
to improve the appearance of the person in individual frames and 2) Temporal
Frequency Regularization (TFR) to guarantee the temporal consistency between
adjacent frames. Finally, comprehensive experiments demonstrate that the
FreMOTR not only yields superior performance in temporal consistency metrics
but also improves the frame-level visual quality of synthetic videos. In
particular, the temporal consistency metrics are improved by nearly 30% than
the state-of-the-art model.
- Abstract(参考訳): 人間の動き伝達は、ある人の動きを模倣することのできる、写実的で時間的に整合したビデオの合成を指す。
しかし、現在の合成ビデオは、映像品質を著しく低下させるシーケンシャルフレームの時間的不整合に苦しむが、画素領域の既存の方法によって解決されるには程遠い。
近年、DeepFake検出の研究は、画像合成法の周波数不足のため、周波数領域の自然画像と合成画像の区別を試みる。
それでも、自然と合成のビデオ間の周波数領域のギャップから合成ビデオの時間的矛盾を研究する研究は行われていない。
本稿では,人間の運動伝達を時間的に一貫したものにするための周波数空間を探究する。
まず, 周波数領域における自然映像と合成映像の包括的解析を行い, 個々のフレームの空間次元と映像の時間次元の両方における周波数ギャップを明らかにする。
自然映像と合成映像の周波数ギャップを縮めるために,fremotrと呼ばれる新しい周波数ベースヒューマンモーショントランスファーフレームワークを提案し,合成映像の空間的アーティファクトと時間的不整合を効果的に緩和する。
FreMOTRは2つの新しい周波数ベース正規化モジュールを探索する。
1)個別フレームにおける人物の出現を改善する周波数領域出現規則化(far)
2)隣接するフレーム間の時間的一貫性を保証するための時間周波数規則化(TFR)。
最後に、総合的な実験により、FreMOTRは時間的一貫性の指標において優れた性能を得るだけでなく、合成ビデオのフレームレベルの視覚的品質も向上することが示された。
特に、時間的一貫性の指標は最先端モデルよりも30%近く改善されている。
関連論文リスト
- UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Learning Spatiotemporal Frequency-Transformer for Low-Quality Video
Super-Resolution [47.5883522564362]
Video Super-Resolution (VSR)は、高解像度(HR)ビデオを低解像度(LR)ビデオから復元することを目的としている。
既存のVSR技術は通常、近くのフレームから既知の劣化プロセスでテクスチャを抽出することでHRフレームを復元する。
本稿では,空間-時間-周波数領域の組み合わせで自己アテンションを行う低品質ビデオを扱うための新しい周波数変換器(FTVSR)を提案する。
論文 参考訳(メタデータ) (2022-12-27T16:26:15Z) - Time reflection and refraction in synthetic frequency dimension [3.4649462017122996]
非ゼロ参照エネルギーを中心とした2バンドモデルで時間反射と屈折が観測可能であることを示す。
マイクロ波周波数の変調は、合成周波数次元における光波の時間境界効果を観測するのに十分である。
論文 参考訳(メタデータ) (2022-09-08T02:37:41Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity
and Temporal-Consistency Video Prediction [12.84409065286371]
本稿では,マルチレベルウェーブレット解析に基づく映像予測ネットワークを提案し,空間的・時間的情報を統一的に扱う。
本モデルでは,最先端の作業に対する忠実度と時間的整合性に大きな改善が見られた。
論文 参考訳(メタデータ) (2020-02-23T13:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。