論文の概要: C2F-FWN: Coarse-to-Fine Flow Warping Network for Spatial-Temporal
Consistent Motion Transfer
- arxiv url: http://arxiv.org/abs/2012.08976v1
- Date: Wed, 16 Dec 2020 14:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 02:57:12.271269
- Title: C2F-FWN: Coarse-to-Fine Flow Warping Network for Spatial-Temporal
Consistent Motion Transfer
- Title(参考訳): C2F-FWN:空間的一貫した運動伝達のための粗対有限フローワーピングネットワーク
- Authors: Dongxu Wei, Xiaowei Xu, Haibin Shen, Kejie Huang
- Abstract要約: C2F-FWN (Carse-to-Fine Flow Warping Network) を提案する。
C2F-FWNは時間整合性を高めるために流れの一時的な一貫性(FTC)の損失を採用します。
提案手法は空間的および時間的整合性の観点から,最先端HVMT法より優れている。
- 参考スコア(独自算出の注目度): 5.220611885921671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human video motion transfer (HVMT) aims to synthesize videos that one person
imitates other persons' actions. Although existing GAN-based HVMT methods have
achieved great success, they either fail to preserve appearance details due to
the loss of spatial consistency between synthesized and exemplary images, or
generate incoherent video results due to the lack of temporal consistency among
video frames. In this paper, we propose Coarse-to-Fine Flow Warping Network
(C2F-FWN) for spatial-temporal consistent HVMT. Particularly, C2F-FWN utilizes
coarse-to-fine flow warping and Layout-Constrained Deformable Convolution
(LC-DConv) to improve spatial consistency, and employs Flow Temporal
Consistency (FTC) Loss to enhance temporal consistency. In addition, provided
with multi-source appearance inputs, C2F-FWN can support appearance attribute
editing with great flexibility and efficiency. Besides public datasets, we also
collected a large-scale HVMT dataset named SoloDance for evaluation. Extensive
experiments conducted on our SoloDance dataset and the iPER dataset show that
our approach outperforms state-of-art HVMT methods in terms of both spatial and
temporal consistency. Source code and the SoloDance dataset are available at
https://github.com/wswdx/C2F-FWN.
- Abstract(参考訳): HVMT(Human Video Motion Transfer)は、ある人が他人の行動を模倣したビデオを合成することを目的としている。
既存のGANベースのHVMT法は大きな成功を収めているが、合成画像と模範画像の間の空間的整合性の欠如による外観の保存に失敗するか、ビデオフレーム間の時間的整合性の欠如による不整合性ビデオ結果を生成する。
本稿では,空間的時間的一貫したHVMTのためのC2F-FWN(Carse-to-Fine Flow Warping Network)を提案する。
特に、C2F-FWNは粗大なフローワーピングとLayout-Constrained Deformable Convolution (LC-DConv)を使用して空間的一貫性を改善し、時間的一貫性を高めるためにFlow Temporal Consistency (FTC) Lossを使用している。
さらに、複数ソースの外観入力を備えたc2f-fwnは、高い柔軟性と効率性で外観属性編集をサポートできる。
公開データセットに加えて、評価のためにSoloDanceという大規模なHVMTデータセットも収集しました。
当社のsolodanceデータセットとiperデータセットで行った広範な実験により,我々は空間的および時間的一貫性の観点から,最先端のhvmt法よりも優れた手法を示した。
ソースコードとsolodanceデータセットはhttps://github.com/wswdx/c2f-fwnで入手できる。
関連論文リスト
- Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - FLAIR: A Conditional Diffusion Framework with Applications to Face Video
Restoration [14.17192434286707]
顔画像復元のためのFLAIRと呼ばれる新しい条件拡散フレームワークを提案する。
FLAIRは、計算的に効率的な方法でフレーム間の時間的一貫性を保証する。
我々の実験は,2つの高品質な顔ビデオデータセット上での映像超解像,デブロアリング,JPEG復元,時空フレームにおいて,現在最先端(SOTA)よりもFLAIRの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-26T22:09:18Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - Conditional Image-to-Video Generation with Latent Flow Diffusion Models [18.13991670747915]
条件付き画像合成(cI2V)は、画像と条件から始まる新しい可視映像を合成することを目的としている。
我々は,新しい潜流拡散モデル(LFDM)を用いたcI2Vのアプローチを提案する。
LFDMは、所定の条件に基づいて潜時空間内の光フローシーケンスを合成し、所定の画像をワープする。
論文 参考訳(メタデータ) (2023-03-24T01:54:26Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。