論文の概要: Towards Using Clothes Style Transfer for Scenario-aware Person Video
Generation
- arxiv url: http://arxiv.org/abs/2110.11894v2
- Date: Mon, 25 Oct 2021 03:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 09:27:04.560544
- Title: Towards Using Clothes Style Transfer for Scenario-aware Person Video
Generation
- Title(参考訳): シナリオ認識型人物ビデオ生成のための衣服スタイル転送の利用
- Authors: Jingning Xu, Benlai Tang, Mingjie Wang, Siyuan Bian, Wenyi Guo, Xiang
Yin, Zejun Ma
- Abstract要約: 個人ビデオ生成のための衣服スタイルは、個人内外見やシナリオの劇的なバリエーションのため、難しい作業である。
この問題に対処するために、AdaINをベースとした最新のアーキテクチャが提案されている。
本稿では,アンタングル型マルチブランチエンコーダと共有デコーダを用いたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.424181051877569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clothes style transfer for person video generation is a challenging task, due
to drastic variations of intra-person appearance and video scenarios. To tackle
this problem, most recent AdaIN-based architectures are proposed to extract
clothes and scenario features for generation. However, these approaches suffer
from being short of fine-grained details and are prone to distort the origin
person. To further improve the generation performance, we propose a novel
framework with disentangled multi-branch encoders and a shared decoder.
Moreover, to pursue the strong video spatio-temporal consistency, an
inner-frame discriminator is delicately designed with input being cross-frame
difference. Besides, the proposed framework possesses the property of scenario
adaptation. Extensive experiments on the TEDXPeople benchmark demonstrate the
superiority of our method over state-of-the-art approaches in terms of image
quality and video coherence.
- Abstract(参考訳): 人物ビデオ生成のための服装スタイル転送は、人物内外観と映像シナリオの劇的な変化のため、困難な課題である。
この問題に対処するために、AdaINをベースとした最新のアーキテクチャが提案されている。
しかし、これらのアプローチは細かな細部が不足しており、原産地を歪めやすい。
生成性能をさらに向上させるため,アンタングル型マルチブランチエンコーダと共有デコーダを備えた新しいフレームワークを提案する。
さらに、強ビデオ時空間一貫性を追求するため、内部フレーム判別器を微妙に設計し、入力をクロスフレーム差とする。
さらに,提案フレームワークはシナリオ適応の特性を有する。
tedxpeopleベンチマークに関する広範な実験は、画像品質とビデオコヒーレンスの観点から、最先端のアプローチよりも優れた方法を示している。
関連論文リスト
- Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - One Style is All you Need to Generate a Video [0.9558392439655012]
学習された正弦波基底の集合に基づく新しい時間発生器を提案する。
本手法は,画像の内容に依存しない様々な動作の動的表現を学習し,異なるアクター間で伝達することができる。
論文 参考訳(メタデータ) (2023-10-27T01:17:48Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。