論文の概要: Context-Preserving Two-Stage Video Domain Translation for Portrait
Stylization
- arxiv url: http://arxiv.org/abs/2305.19135v1
- Date: Tue, 30 May 2023 15:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:23:35.607202
- Title: Context-Preserving Two-Stage Video Domain Translation for Portrait
Stylization
- Title(参考訳): ポートレートスタイライゼーションのための文脈保存型2段階ビデオドメイン翻訳
- Authors: Doyeon Kim, Eunji Ko, Hyunsu Kim, Yunji Kim, Junho Kim, Dongchan Min,
Junmo Kim, Sung Ju Hwang
- Abstract要約: 本稿では,時間的コヒーレントなスタイリングビデオを生成するためのモデルを強制する客観的機能を備えた新しい2段階ビデオ翻訳フレームワークを提案する。
我々のモデルは1フレームあたり0.011秒のレイテンシでリアルタイムに動作し、パラメータは5.6Mしか必要としない。
- 参考スコア(独自算出の注目度): 68.10073215175055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Portrait stylization, which translates a real human face image into an
artistically stylized image, has attracted considerable interest and many prior
works have shown impressive quality in recent years. However, despite their
remarkable performances in the image-level translation tasks, prior methods
show unsatisfactory results when they are applied to the video domain. To
address the issue, we propose a novel two-stage video translation framework
with an objective function which enforces a model to generate a temporally
coherent stylized video while preserving context in the source video.
Furthermore, our model runs in real-time with the latency of 0.011 seconds per
frame and requires only 5.6M parameters, and thus is widely applicable to
practical real-world applications.
- Abstract(参考訳): 本物の人間の顔画像を芸術的にスタイリゼーションされたイメージに変換するポートレート・スタイリゼーションは、かなりの関心を集めており、近年は多くの先行作品が印象的な品質を示している。
しかし、画像レベルの翻訳タスクでは顕著な性能を示すものの、従来の手法では、ビデオ領域に適用された場合の結果が不十分である。
そこで,本稿では,映像の文脈を保存しつつ,時間的にコヒーレントなスタイリッシュな映像を生成することを強制する目的関数を持つ,新しい2段階ビデオ翻訳フレームワークを提案する。
さらに,本モデルでは1フレームあたり0.011秒のレイテンシでリアルタイムに動作し,5.6Mパラメータしか必要とせず,実用的な実世界のアプリケーションに適用可能である。
関連論文リスト
- Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion [52.196540278796476]
本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
我々は、既存のテキストベースの動き拡散モデルを利用して、T2Iモデルを誘導する多様な動きを生成する。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [65.82277526057294]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。