Fugu-MT 論文翻訳(概要): Context-Preserving Two-Stage Video Domain Translation for Portrait Stylization

論文の概要: Context-Preserving Two-Stage Video Domain Translation for Portrait Stylization

arxiv url: http://arxiv.org/abs/2305.19135v1
Date: Tue, 30 May 2023 15:46:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 15:23:35.607202
Title: Context-Preserving Two-Stage Video Domain Translation for Portrait Stylization
Title（参考訳）: ポートレートスタイライゼーションのための文脈保存型2段階ビデオドメイン翻訳
Authors: Doyeon Kim, Eunji Ko, Hyunsu Kim, Yunji Kim, Junho Kim, Dongchan Min, Junmo Kim, Sung Ju Hwang
Abstract要約: 本稿では,時間的コヒーレントなスタイリングビデオを生成するためのモデルを強制する客観的機能を備えた新しい2段階ビデオ翻訳フレームワークを提案する。我々のモデルは1フレームあたり0.011秒のレイテンシでリアルタイムに動作し、パラメータは5.6Mしか必要としない。
参考スコア（独自算出の注目度）: 68.10073215175055
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Portrait stylization, which translates a real human face image into an artistically stylized image, has attracted considerable interest and many prior works have shown impressive quality in recent years. However, despite their remarkable performances in the image-level translation tasks, prior methods show unsatisfactory results when they are applied to the video domain. To address the issue, we propose a novel two-stage video translation framework with an objective function which enforces a model to generate a temporally coherent stylized video while preserving context in the source video. Furthermore, our model runs in real-time with the latency of 0.011 seconds per frame and requires only 5.6M parameters, and thus is widely applicable to practical real-world applications.
Abstract（参考訳）: 本物の人間の顔画像を芸術的にスタイリゼーションされたイメージに変換するポートレート・スタイリゼーションは、かなりの関心を集めており、近年は多くの先行作品が印象的な品質を示している。しかし、画像レベルの翻訳タスクでは顕著な性能を示すものの、従来の手法では、ビデオ領域に適用された場合の結果が不十分である。そこで,本稿では,映像の文脈を保存しつつ,時間的にコヒーレントなスタイリッシュな映像を生成することを強制する目的関数を持つ,新しい2段階ビデオ翻訳フレームワークを提案する。さらに,本モデルでは1フレームあたり0.011秒のレイテンシでリアルタイムに動作し,5.6Mパラメータしか必要とせず,実用的な実世界のアプリケーションに適用可能である。

関連論文リスト

Video Virtual Try-on with Conditional Diffusion Transformer Inpainter [27.150975905047968]
Video Virtual try-onは、連続したビデオフレーム内の被服を対象者にフィットさせることを目的としている。近年の拡散型ビデオ試行法は, ほとんどないが, 類似の解法と一致している。本稿では,VTI(Video Try-on Inpainter)を提案する。
論文参考訳（メタデータ） (2025-06-26T13:56:27Z)
DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds [64.53681498600065]
ドリームダンス(DreamDance)は、安定的で一貫したキャラクタと、正確なカメラ軌跡を条件としたシーンの動きを生成できるアニメーションフレームワークである。我々は、背景品質を高めつつ、動的キャラクタをシーンビデオに注入する、ポーズ対応ビデオ塗装モデルを訓練する。
論文参考訳（メタデータ） (2025-05-30T15:54:34Z)
Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation [31.751046895654444]
長編ビデオを作成するために,ハロにデザインの強化を導入する。我々は4K解像度のポートレートビデオ生成を実現する。ポートレート表現のための調整可能なセマンティックテキストラベルを条件入力として組み込んだ。
論文参考訳（メタデータ） (2024-10-10T08:34:41Z)
Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control [77.08568533331206]
Follow-Your-Pose v2は、インターネットで簡単に利用できるノイズの多いオープンソースビデオでトレーニングすることができる。われわれの手法は、2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。
論文参考訳（メタデータ） (2024-06-05T08:03:18Z)
UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文参考訳（メタデータ） (2024-06-03T10:51:10Z)
LatentMan: Generating Consistent Animated Characters using Image Diffusion Models [44.18315132571804]
テキスト・ツー・イメージ(T2I)拡散モデルに基づいて,アニメキャラクターの一貫した映像を生成するゼロショット手法を提案する。提案手法は,既存のゼロショットT2V手法より,ピクセルワイドの一貫性とユーザ嗜好の観点からアニメーションキャラクターのビデオ生成に優れる。
論文参考訳（メタデータ） (2023-12-12T10:07:37Z)
MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。 MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文参考訳（メタデータ） (2023-11-27T18:32:31Z)
WAIT: Feature Warping for Animation to Illustration video Translation using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文参考訳（メタデータ） (2023-10-07T19:45:24Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文参考訳（メタデータ） (2022-08-11T02:57:30Z)
Neural Human Video Rendering by Learning Dynamic Textures and Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文参考訳（メタデータ） (2020-01-14T18:06:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。