論文の概要: Context-Preserving Two-Stage Video Domain Translation for Portrait
Stylization
- arxiv url: http://arxiv.org/abs/2305.19135v1
- Date: Tue, 30 May 2023 15:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:23:35.607202
- Title: Context-Preserving Two-Stage Video Domain Translation for Portrait
Stylization
- Title(参考訳): ポートレートスタイライゼーションのための文脈保存型2段階ビデオドメイン翻訳
- Authors: Doyeon Kim, Eunji Ko, Hyunsu Kim, Yunji Kim, Junho Kim, Dongchan Min,
Junmo Kim, Sung Ju Hwang
- Abstract要約: 本稿では,時間的コヒーレントなスタイリングビデオを生成するためのモデルを強制する客観的機能を備えた新しい2段階ビデオ翻訳フレームワークを提案する。
我々のモデルは1フレームあたり0.011秒のレイテンシでリアルタイムに動作し、パラメータは5.6Mしか必要としない。
- 参考スコア(独自算出の注目度): 68.10073215175055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Portrait stylization, which translates a real human face image into an
artistically stylized image, has attracted considerable interest and many prior
works have shown impressive quality in recent years. However, despite their
remarkable performances in the image-level translation tasks, prior methods
show unsatisfactory results when they are applied to the video domain. To
address the issue, we propose a novel two-stage video translation framework
with an objective function which enforces a model to generate a temporally
coherent stylized video while preserving context in the source video.
Furthermore, our model runs in real-time with the latency of 0.011 seconds per
frame and requires only 5.6M parameters, and thus is widely applicable to
practical real-world applications.
- Abstract(参考訳): 本物の人間の顔画像を芸術的にスタイリゼーションされたイメージに変換するポートレート・スタイリゼーションは、かなりの関心を集めており、近年は多くの先行作品が印象的な品質を示している。
しかし、画像レベルの翻訳タスクでは顕著な性能を示すものの、従来の手法では、ビデオ領域に適用された場合の結果が不十分である。
そこで,本稿では,映像の文脈を保存しつつ,時間的にコヒーレントなスタイリッシュな映像を生成することを強制する目的関数を持つ,新しい2段階ビデオ翻訳フレームワークを提案する。
さらに,本モデルでは1フレームあたり0.011秒のレイテンシでリアルタイムに動作し,5.6Mパラメータしか必要とせず,実用的な実世界のアプリケーションに適用可能である。
関連論文リスト
- Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation [31.751046895654444]
長編ビデオを作成するために,ハロにデザインの強化を導入する。
我々は4K解像度のポートレートビデオ生成を実現する。
ポートレート表現のための調整可能なセマンティックテキストラベルを条件入力として組み込んだ。
論文 参考訳(メタデータ) (2024-10-10T08:34:41Z) - Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control [77.08568533331206]
Follow-Your-Pose v2は、インターネットで簡単に利用できるノイズの多いオープンソースビデオでトレーニングすることができる。
われわれの手法は、2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。