論文の概要: Unsupervised Coherent Video Cartoonization with Perceptual Motion
Consistency
- arxiv url: http://arxiv.org/abs/2204.00795v1
- Date: Sat, 2 Apr 2022 07:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 08:10:37.143844
- Title: Unsupervised Coherent Video Cartoonization with Perceptual Motion
Consistency
- Title(参考訳): 知覚運動の一貫性を考慮した教師なしコヒーレントビデオカートーン化
- Authors: Zhenhuan Liu, Liang Li, Huajie Jiang, Xin Jin, Dandan Tu, Shuhui Wang,
Zheng-Jun Zha
- Abstract要約: 映像のコヒーレント化のための空間適応型アライメントフレームワークを提案する。
我々は,セマンティック相関写像を,知覚整合運動におけるスタイルに依存しないグローバルな正規化として考案する。
本手法は,高度にスタイリスティックで時間的に一貫したマンガ映像を生成することができる。
- 参考スコア(独自算出の注目度): 89.75731026852338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, creative content generations like style transfer and neural
photo editing have attracted more and more attention. Among these,
cartoonization of real-world scenes has promising applications in entertainment
and industry. Different from image translations focusing on improving the style
effect of generated images, video cartoonization has additional requirements on
the temporal consistency. In this paper, we propose a spatially-adaptive
semantic alignment framework with perceptual motion consistency for coherent
video cartoonization in an unsupervised manner. The semantic alignment module
is designed to restore deformation of semantic structure caused by spatial
information lost in the encoder-decoder architecture. Furthermore, we devise
the spatio-temporal correlative map as a style-independent, global-aware
regularization on the perceptual motion consistency. Deriving from similarity
measurement of high-level features in photo and cartoon frames, it captures
global semantic information beyond raw pixel-value in optical flow. Besides,
the similarity measurement disentangles temporal relationships from
domain-specific style properties, which helps regularize the temporal
consistency without hurting style effects of cartoon images. Qualitative and
quantitative experiments demonstrate our method is able to generate highly
stylistic and temporal consistent cartoon videos.
- Abstract(参考訳): 近年では、スタイル転送やニューラル写真編集といったクリエイティブなコンテンツ世代が注目されている。
このうち、現実のシーンの漫画化はエンターテイメントや産業に有望な応用をもたらした。
生成画像のスタイル効果の改善に焦点を当てた画像翻訳とは異なり、映像の漫画化には時間的一貫性に関する追加の要件がある。
本稿では,コヒーレントな映像マンガライズのための知覚的動作一貫性を備えた空間適応型意味的アライメントフレームワークを提案する。
セマンティクスアライメントモジュールは、エンコーダ-デコーダアーキテクチャで失われた空間情報に起因するセマンティクス構造の変形を復元するように設計されている。
さらに,時空間相関マップを,知覚運動の整合性に基づくスタイルに依存しないグローバルな正規化として考案する。
写真フレームと漫画フレームの高レベル特徴の類似度測定から、光学フローにおける原画素値を超える大域的意味情報をキャプチャする。
さらに、類似度測定は、時間的関係をドメイン固有のスタイル特性から切り離し、漫画画像のスタイル効果を損なうことなく時間的一貫性を規則化する。
定性的かつ定量的な実験により,本手法は高度にスタイリスティックで時間的に一貫した漫画ビデオを生成することができることを示した。
関連論文リスト
- Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for
Character Animation [29.35175159679592]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Bidirectionally Deformable Motion Modulation For Video-based Human Pose
Transfer [19.5025303182983]
ビデオベースのヒューマンポーズ転送は、ビデオからビデオへの生成タスクであり、一連のターゲットの人間のポーズに基づいて、プレーンソースのヒューマンイメージを識別する。
本稿では,不連続な特徴アライメントとスタイル転送を同時に行うために,適応重み変調を用いた幾何学的カーネルオフセットを用いた新しい変形可能運動変調(DMM)を提案する。
論文 参考訳(メタデータ) (2023-07-15T09:24:45Z) - Learning to Incorporate Texture Saliency Adaptive Attention to Image
Cartoonization [20.578335938736384]
マンガ・テクスチュア・サリエンシ・サンプラー (CTSS) モジュールを提案し, トレーニングデータからマンガ・テクスチュア・サリエントパッチを動的にサンプリングする。
大規模な実験により,画像のマンガ化を促進・強化する上で,テクスチャ・サリエンシー適応型学習が重要であることを示す。
論文 参考訳(メタデータ) (2022-08-02T16:45:55Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Latent Image Animator: Learning to Animate Images via Latent Space
Navigation [11.286071873122658]
本稿では,構造表現の必要性を回避する自己教師型オートエンコーダであるLatent Image Animator(LIA)を紹介する。
LIAは、潜時空間における線形ナビゲーションにより画像をアニメーションするために合理化され、特に、潜時空間における符号の線形変位によって生成されたビデオ内の動きが構成される。
論文 参考訳(メタデータ) (2022-03-17T02:45:34Z) - Real-time Localized Photorealistic Video Style Transfer [25.91181753178577]
本稿では,対象映像の局所領域に意味論的に意味のある局所領域の芸術的スタイルを移すための新しいアルゴリズムを提案する。
近年のフォトリアリスティックなスタイル転送に触発されたディープニューラルネットワークアーキテクチャをベースとした本手法は,リアルタイムであり,任意の入力に作用する。
本手法は,複数のオブジェクトに異なるスタイルを同時に転送する機能を含む,様々なスタイルの画像やターゲットビデオに対して実証する。
論文 参考訳(メタデータ) (2020-10-20T06:21:09Z) - Image Morphing with Perceptual Constraints and STN Alignment [70.38273150435928]
本稿では,一対の入力画像で動作する条件付きGANモーフィングフレームワークを提案する。
特別なトレーニングプロトコルは、知覚的類似性損失と組み合わせてフレームのシーケンスを生成し、時間とともにスムーズな変換を促進する。
我々は、古典的かつ潜時的な空間変形技術との比較を行い、自己スーパービジョンのための一連の画像から、我々のネットワークが視覚的に楽しむモーフィング効果を生成することを実証する。
論文 参考訳(メタデータ) (2020-04-29T10:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。