Fugu-MT 論文翻訳(概要): Unsupervised Coherent Video Cartoonization with Perceptual Motion Consistency

論文の概要: Unsupervised Coherent Video Cartoonization with Perceptual Motion Consistency

arxiv url: http://arxiv.org/abs/2204.00795v1
Date: Sat, 2 Apr 2022 07:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 08:10:37.143844
Title: Unsupervised Coherent Video Cartoonization with Perceptual Motion Consistency
Title（参考訳）: 知覚運動の一貫性を考慮した教師なしコヒーレントビデオカートーン化
Authors: Zhenhuan Liu, Liang Li, Huajie Jiang, Xin Jin, Dandan Tu, Shuhui Wang, Zheng-Jun Zha
Abstract要約: 映像のコヒーレント化のための空間適応型アライメントフレームワークを提案する。我々は,セマンティック相関写像を,知覚整合運動におけるスタイルに依存しないグローバルな正規化として考案する。本手法は,高度にスタイリスティックで時間的に一貫したマンガ映像を生成することができる。
参考スコア（独自算出の注目度）: 89.75731026852338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, creative content generations like style transfer and neural photo editing have attracted more and more attention. Among these, cartoonization of real-world scenes has promising applications in entertainment and industry. Different from image translations focusing on improving the style effect of generated images, video cartoonization has additional requirements on the temporal consistency. In this paper, we propose a spatially-adaptive semantic alignment framework with perceptual motion consistency for coherent video cartoonization in an unsupervised manner. The semantic alignment module is designed to restore deformation of semantic structure caused by spatial information lost in the encoder-decoder architecture. Furthermore, we devise the spatio-temporal correlative map as a style-independent, global-aware regularization on the perceptual motion consistency. Deriving from similarity measurement of high-level features in photo and cartoon frames, it captures global semantic information beyond raw pixel-value in optical flow. Besides, the similarity measurement disentangles temporal relationships from domain-specific style properties, which helps regularize the temporal consistency without hurting style effects of cartoon images. Qualitative and quantitative experiments demonstrate our method is able to generate highly stylistic and temporal consistent cartoon videos.
Abstract（参考訳）: 近年では、スタイル転送やニューラル写真編集といったクリエイティブなコンテンツ世代が注目されている。このうち、現実のシーンの漫画化はエンターテイメントや産業に有望な応用をもたらした。生成画像のスタイル効果の改善に焦点を当てた画像翻訳とは異なり、映像の漫画化には時間的一貫性に関する追加の要件がある。本稿では,コヒーレントな映像マンガライズのための知覚的動作一貫性を備えた空間適応型意味的アライメントフレームワークを提案する。セマンティクスアライメントモジュールは、エンコーダ-デコーダアーキテクチャで失われた空間情報に起因するセマンティクス構造の変形を復元するように設計されている。さらに,時空間相関マップを,知覚運動の整合性に基づくスタイルに依存しないグローバルな正規化として考案する。写真フレームと漫画フレームの高レベル特徴の類似度測定から、光学フローにおける原画素値を超える大域的意味情報をキャプチャする。さらに、類似度測定は、時間的関係をドメイン固有のスタイル特性から切り離し、漫画画像のスタイル効果を損なうことなく時間的一貫性を規則化する。定性的かつ定量的な実験により,本手法は高度にスタイリスティックで時間的に一貫した漫画ビデオを生成することができることを示した。

関連論文リスト

Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video [3.2195139886901813]
マルチレベル意味論と多フレーム人間のポーズ推定を学習する新しいフレームワークを提案する。具体的には、まずマルチタスクコンテキストを設計し、再構築戦略を示す。この戦略は、光学(パッチ)立方体とフレームの特徴を徐々に隠蔽することにより、フレーム間の多時的意味関係を探索するモデルを刺激する。
論文参考訳（メタデータ） (2025-02-15T00:35:34Z)
Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation [19.408715783816167]
生成された映像シーケンスが参照画像の微妙さを確実に保持する訓練不要のフレームワークを導入する。我々は、骨格と動きの先行情報をポーズ情報から切り離し、アニメーション生成の正確な制御を可能にする。提案手法は,大規模なデータセットや高価な計算資源を必要とせず,映像生成の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-29T13:08:12Z)
OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文参考訳（メタデータ） (2024-05-23T15:42:34Z)
AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-04-18T17:24:28Z)
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文参考訳（メタデータ） (2024-04-17T17:59:55Z)
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文参考訳（メタデータ） (2024-03-19T17:59:18Z)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-11-28T12:27:15Z)
MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。 MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文参考訳（メタデータ） (2023-11-27T18:32:31Z)
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文参考訳（メタデータ） (2023-10-18T14:42:16Z)
Latent Image Animator: Learning to Animate Images via Latent Space Navigation [11.286071873122658]
本稿では,構造表現の必要性を回避する自己教師型オートエンコーダであるLatent Image Animator(LIA)を紹介する。 LIAは、潜時空間における線形ナビゲーションにより画像をアニメーションするために合理化され、特に、潜時空間における符号の線形変位によって生成されたビデオ内の動きが構成される。
論文参考訳（メタデータ） (2022-03-17T02:45:34Z)
Image Morphing with Perceptual Constraints and STN Alignment [70.38273150435928]
本稿では,一対の入力画像で動作する条件付きGANモーフィングフレームワークを提案する。特別なトレーニングプロトコルは、知覚的類似性損失と組み合わせてフレームのシーケンスを生成し、時間とともにスムーズな変換を促進する。我々は、古典的かつ潜時的な空間変形技術との比較を行い、自己スーパービジョンのための一連の画像から、我々のネットワークが視覚的に楽しむモーフィング効果を生成することを実証する。
論文参考訳（メタデータ） (2020-04-29T10:49:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。