論文の概要: LatentColorization: Latent Diffusion-Based Speaker Video Colorization
- arxiv url: http://arxiv.org/abs/2405.05707v1
- Date: Thu, 9 May 2024 12:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:32:48.042976
- Title: LatentColorization: Latent Diffusion-Based Speaker Video Colorization
- Title(参考訳): LatentColorization: Latent Diffusion-based Speaker Video Colorization
- Authors: Rory Ward, Dan Bigioi, Shubhajit Basak, John G. Breslin, Peter Corcoran,
- Abstract要約: ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。
既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。
我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
- 参考スコア(独自算出の注目度): 1.2641141743223379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While current research predominantly focuses on image-based colorization, the domain of video-based colorization remains relatively unexplored. Most existing video colorization techniques operate on a frame-by-frame basis, often overlooking the critical aspect of temporal coherence between successive frames. This approach can result in inconsistencies across frames, leading to undesirable effects like flickering or abrupt color transitions between frames. To address these challenges, we harness the generative capabilities of a fine-tuned latent diffusion model designed specifically for video colorization, introducing a novel solution for achieving temporal consistency in video colorization, as well as demonstrating strong improvements on established image quality metrics compared to other existing methods. Furthermore, we perform a subjective study, where users preferred our approach to the existing state of the art. Our dataset encompasses a combination of conventional datasets and videos from television/movies. In short, by leveraging the power of a fine-tuned latent diffusion-based colorization system with a temporal consistency mechanism, we can improve the performance of automatic video colorization by addressing the challenges of temporal inconsistency. A short demonstration of our results can be seen in some example videos available at https://youtu.be/vDbzsZdFuxM.
- Abstract(参考訳): 現在の研究では、主に画像ベースのカラー化に焦点を当てているが、ビデオベースのカラー化の領域はいまだに探索されていない。
既存のビデオカラー化技術の多くはフレーム単位で動作しており、しばしば連続するフレーム間の時間的コヒーレンスの重要な側面を見落としている。
このアプローチはフレーム間の不整合をもたらす可能性があり、フレーム間の点滅や突然の色遷移のような望ましくない効果をもたらす。
これらの課題に対処するために,ビデオカラー化に特化して設計された微調整潜在拡散モデルの生成機能を活用し,ビデオカラー化における時間的一貫性を実現するための新しいソリューションを導入し,既存の方法と比較して確立された画像品質指標の強力な改善を示す。
さらに,既存の最先端技術へのアプローチをユーザが好む主観的研究を行った。
我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
要するに、微調整された潜伏拡散に基づくカラー化システムのパワーを時間的整合性機構で活用することにより、時間的不整合の課題に対処することで、自動映像カラー化の性能を向上させることができる。
結果の短いデモは、https://youtu.be/vDbzsZdFuxM.comで公開されているサンプルビデオで見ることができる。
関連論文リスト
- L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文 参考訳(メタデータ) (2024-10-07T12:16:21Z) - LVCD: Reference-based Lineart Video Colorization with Diffusion Models [18.0983825973013]
参照型リニアトビデオのカラー化のための第1のビデオ拡散フレームワークを提案する。
我々は、大規模な事前学習ビデオ拡散モデルを利用して、カラー化されたアニメーションビデオを生成する。
提案手法は高品質で長時間の時間一貫性のあるアニメーションビデオを生成することができる。
論文 参考訳(メタデータ) (2024-09-19T17:59:48Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Video Colorization with Pre-trained Text-to-Image Diffusion Models [19.807766482434563]
ビデオカラー化のための事前訓練されたテキストから画像への潜時拡散モデルの適応であるColorDiffuserを提案する。
本稿では,時間的コヒーレンスを高め,フレーム間の色付けの鮮明さを維持するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-02T17:58:00Z) - FlowChroma -- A Deep Recurrent Neural Network for Video Colorization [1.0499611180329804]
フレーム間の色合いを最小限に抑える自動ビデオカラー化フレームワークを開発した。
ビデオのカラー化における色一貫性向上のために、繰り返しニューラルネットワークをうまく利用できることが示される。
論文 参考訳(メタデータ) (2023-05-23T05:41:53Z) - Temporal Consistent Automatic Video Colorization via Semantic
Correspondence [12.107878178519128]
本稿では,セマンティック対応と自動ビデオカラー化を組み合わせた新しい映像カラー化フレームワークを提案する。
NTIRE 2023ビデオカラー化チャレンジでは,色分布一貫性(CDC)最適化トラックで3位にランクインした。
論文 参考訳(メタデータ) (2023-05-13T12:06:09Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z) - Temporally Consistent Video Colorization with Deep Feature Propagation
and Self-regularization Learning [90.38674162878496]
時間的に一貫した新しいビデオカラー化フレームワーク(TCVC)を提案する。
TCVCは、フレームレベルの深い特徴を双方向的に効果的に伝播し、色付けの時間的一貫性を高める。
実験により,本手法は視覚的に満足な色付きビデオを得るだけでなく,最先端の手法よりも時間的整合性が得られることが示された。
論文 参考訳(メタデータ) (2021-10-09T13:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。