論文の概要: VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization
- arxiv url: http://arxiv.org/abs/2501.09499v1
- Date: Thu, 16 Jan 2025 12:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:09.950325
- Title: VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization
- Title(参考訳): VanGogh: ビデオカラー化のための統合マルチモーダル拡散ベースのフレームワーク
- Authors: Zixun Fang, Zhiheng Liu, Kai Zhu, Yu Liu, Ka Leong Cheng, Wei Zhai, Yang Cao, Zheng-Jun Zha,
- Abstract要約: ビデオのカラー化は、時間的一貫性と構造的整合性を維持しながら、グレースケールのビデオを鮮やかな色表現に変換することを目的としている。
既存のビデオカラー化法は、しばしば色出血に悩まされ、包括的な制御が欠如している。
我々はVanGoghを紹介した。VanGoghはビデオカラー化のためのマルチモーダル拡散に基づく統合フレームワークである。
- 参考スコア(独自算出の注目度): 53.35016574938809
- License:
- Abstract: Video colorization aims to transform grayscale videos into vivid color representations while maintaining temporal consistency and structural integrity. Existing video colorization methods often suffer from color bleeding and lack comprehensive control, particularly under complex motion or diverse semantic cues. To this end, we introduce VanGogh, a unified multimodal diffusion-based framework for video colorization. VanGogh tackles these challenges using a Dual Qformer to align and fuse features from multiple modalities, complemented by a depth-guided generation process and an optical flow loss, which help reduce color overflow. Additionally, a color injection strategy and luma channel replacement are implemented to improve generalization and mitigate flickering artifacts. Thanks to this design, users can exercise both global and local control over the generation process, resulting in higher-quality colorized videos. Extensive qualitative and quantitative evaluations, and user studies, demonstrate that VanGogh achieves superior temporal consistency and color fidelity.Project page: https://becauseimbatman0.github.io/VanGogh.
- Abstract(参考訳): ビデオのカラー化は、時間的一貫性と構造的整合性を維持しながら、グレースケールのビデオを鮮やかな色表現に変換することを目的としている。
既存のビデオカラー化法は、しばしば色出血に悩まされ、特に複雑な動きや多様な意味的手がかりの下で、包括的な制御が欠如している。
そこで我々はVanGoghを紹介した。VanGoghはビデオカラー化のためのマルチモーダル拡散に基づく統合フレームワークである。
VanGogh氏はこの課題にDual Qformerを使って、深度誘導生成プロセスと光フロー損失を補完し、複数のモードから特徴を調整および融合することで、カラーオーバーフローを低減する。
さらに、一般化を改善し、フリックリングアーティファクトを緩和するために、カラーインジェクション戦略とルーマチャネル置換を実装した。
この設計により、ユーザは生成プロセスに対するグローバルとローカルの両方のコントロールを実行することができ、結果として高品質なカラー化ビデオが得られる。
広範に質的かつ定量的な評価とユーザスタディにより、VanGoghは時間的一貫性と色の忠実性に優れており、プロジェクトページ:https://becauseimbatman0.github.io/VanGogh。
関連論文リスト
- DreamColour: Controllable Video Colour Editing without Training [80.90808879991182]
直感的なインタフェースにより、正確な映像色編集を可能にする訓練不要のフレームワークを提案する。
色編集の空間的側面と時間的側面を分離することにより、ユーザの自然なワークフローをより良く整合させることができる。
当社のアプローチは、トレーニングや特別なハードウェアの必要性を排除しつつ、最先端の手法に適合または超越しています。
論文 参考訳(メタデータ) (2024-12-06T16:57:54Z) - L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文 参考訳(メタデータ) (2024-10-07T12:16:21Z) - LVCD: Reference-based Lineart Video Colorization with Diffusion Models [18.0983825973013]
参照型リニアトビデオのカラー化のための第1のビデオ拡散フレームワークを提案する。
我々は、大規模な事前学習ビデオ拡散モデルを利用して、カラー化されたアニメーションビデオを生成する。
提案手法は高品質で長時間の時間一貫性のあるアニメーションビデオを生成することができる。
論文 参考訳(メタデータ) (2024-09-19T17:59:48Z) - LatentColorization: Latent Diffusion-Based Speaker Video Colorization [1.2641141743223379]
ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。
既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。
我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
論文 参考訳(メタデータ) (2024-05-09T12:06:06Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z) - Temporally Consistent Video Colorization with Deep Feature Propagation
and Self-regularization Learning [90.38674162878496]
時間的に一貫した新しいビデオカラー化フレームワーク(TCVC)を提案する。
TCVCは、フレームレベルの深い特徴を双方向的に効果的に伝播し、色付けの時間的一貫性を高める。
実験により,本手法は視覚的に満足な色付きビデオを得るだけでなく,最先端の手法よりも時間的整合性が得られることが示された。
論文 参考訳(メタデータ) (2021-10-09T13:00:14Z) - VCGAN: Video Colorization with Hybrid Generative Adversarial Network [22.45196398040388]
ハイブリッド生成適応ネットワーク(VCGAN)によるハイブリッド映像のカラー化は、エンドツーエンド学習を用いたカラー化への改良されたアプローチである。
実験の結果,VCGANは既存の手法よりも高品質で時間的に一貫したカラービデオを生成することがわかった。
論文 参考訳(メタデータ) (2021-04-26T05:50:53Z) - DeepRemaster: Temporal Source-Reference Attention Networks for
Comprehensive Video Enhancement [32.679447725129165]
本稿では,リマスタータスク全体を半対話的に行うためのフレームワークを提案する。
我々の研究は、時間的畳み込みニューラルネットワークをベースとし、データ駆動劣化シミュレーションによるビデオ上での注意機構を訓練した。
論文 参考訳(メタデータ) (2020-09-18T08:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。