論文の概要: Unsupervised Coherent Video Cartoonization with Perceptual Motion
Consistency
- arxiv url: http://arxiv.org/abs/2204.00795v1
- Date: Sat, 2 Apr 2022 07:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 08:10:37.143844
- Title: Unsupervised Coherent Video Cartoonization with Perceptual Motion
Consistency
- Title(参考訳): 知覚運動の一貫性を考慮した教師なしコヒーレントビデオカートーン化
- Authors: Zhenhuan Liu, Liang Li, Huajie Jiang, Xin Jin, Dandan Tu, Shuhui Wang,
Zheng-Jun Zha
- Abstract要約: 映像のコヒーレント化のための空間適応型アライメントフレームワークを提案する。
我々は,セマンティック相関写像を,知覚整合運動におけるスタイルに依存しないグローバルな正規化として考案する。
本手法は,高度にスタイリスティックで時間的に一貫したマンガ映像を生成することができる。
- 参考スコア(独自算出の注目度): 89.75731026852338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, creative content generations like style transfer and neural
photo editing have attracted more and more attention. Among these,
cartoonization of real-world scenes has promising applications in entertainment
and industry. Different from image translations focusing on improving the style
effect of generated images, video cartoonization has additional requirements on
the temporal consistency. In this paper, we propose a spatially-adaptive
semantic alignment framework with perceptual motion consistency for coherent
video cartoonization in an unsupervised manner. The semantic alignment module
is designed to restore deformation of semantic structure caused by spatial
information lost in the encoder-decoder architecture. Furthermore, we devise
the spatio-temporal correlative map as a style-independent, global-aware
regularization on the perceptual motion consistency. Deriving from similarity
measurement of high-level features in photo and cartoon frames, it captures
global semantic information beyond raw pixel-value in optical flow. Besides,
the similarity measurement disentangles temporal relationships from
domain-specific style properties, which helps regularize the temporal
consistency without hurting style effects of cartoon images. Qualitative and
quantitative experiments demonstrate our method is able to generate highly
stylistic and temporal consistent cartoon videos.
- Abstract(参考訳): 近年では、スタイル転送やニューラル写真編集といったクリエイティブなコンテンツ世代が注目されている。
このうち、現実のシーンの漫画化はエンターテイメントや産業に有望な応用をもたらした。
生成画像のスタイル効果の改善に焦点を当てた画像翻訳とは異なり、映像の漫画化には時間的一貫性に関する追加の要件がある。
本稿では,コヒーレントな映像マンガライズのための知覚的動作一貫性を備えた空間適応型意味的アライメントフレームワークを提案する。
セマンティクスアライメントモジュールは、エンコーダ-デコーダアーキテクチャで失われた空間情報に起因するセマンティクス構造の変形を復元するように設計されている。
さらに,時空間相関マップを,知覚運動の整合性に基づくスタイルに依存しないグローバルな正規化として考案する。
写真フレームと漫画フレームの高レベル特徴の類似度測定から、光学フローにおける原画素値を超える大域的意味情報をキャプチャする。
さらに、類似度測定は、時間的関係をドメイン固有のスタイル特性から切り離し、漫画画像のスタイル効果を損なうことなく時間的一貫性を規則化する。
定性的かつ定量的な実験により,本手法は高度にスタイリスティックで時間的に一貫した漫画ビデオを生成することができることを示した。
関連論文リスト
- Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation [19.408715783816167]
生成された映像シーケンスが参照画像の微妙さを確実に保持する訓練不要のフレームワークを導入する。
我々は、骨格と動きの先行情報をポーズ情報から切り離し、アニメーション生成の正確な制御を可能にする。
提案手法は,大規模なデータセットや高価な計算資源を必要とせず,映像生成の質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-29T13:08:12Z) - OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。
画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。
また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文 参考訳(メタデータ) (2024-05-23T15:42:34Z) - AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。
実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-18T17:24:28Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Latent Image Animator: Learning to Animate Images via Latent Space
Navigation [11.286071873122658]
本稿では,構造表現の必要性を回避する自己教師型オートエンコーダであるLatent Image Animator(LIA)を紹介する。
LIAは、潜時空間における線形ナビゲーションにより画像をアニメーションするために合理化され、特に、潜時空間における符号の線形変位によって生成されたビデオ内の動きが構成される。
論文 参考訳(メタデータ) (2022-03-17T02:45:34Z) - Image Morphing with Perceptual Constraints and STN Alignment [70.38273150435928]
本稿では,一対の入力画像で動作する条件付きGANモーフィングフレームワークを提案する。
特別なトレーニングプロトコルは、知覚的類似性損失と組み合わせてフレームのシーケンスを生成し、時間とともにスムーズな変換を促進する。
我々は、古典的かつ潜時的な空間変形技術との比較を行い、自己スーパービジョンのための一連の画像から、我々のネットワークが視覚的に楽しむモーフィング効果を生成することを実証する。
論文 参考訳(メタデータ) (2020-04-29T10:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。