論文の概要: ControlCol: Controllability in Automatic Speaker Video Colorization
- arxiv url: http://arxiv.org/abs/2408.11711v1
- Date: Wed, 21 Aug 2024 15:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:28:00.792428
- Title: ControlCol: Controllability in Automatic Speaker Video Colorization
- Title(参考訳): ControlCol: 自動話者ビデオカラー化における制御性
- Authors: Rory Ward, John G. Breslin, Peter Corcoran,
- Abstract要約: ユーザに対して制御性を提供する新しい自動話者ビデオカラー化システムを提案する。
ControlColは、Grid and Lombard Gridデータセットの最先端のDeOldifyよりも3.5%パフォーマンスがよい。
- 参考スコア(独自算出の注目度): 1.4815508281465273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adding color to black-and-white speaker videos automatically is a highly desirable technique. It is an artistic process that requires interactivity with humans for the best results. Many existing automatic video colorization systems provide little opportunity for the user to guide the colorization process. In this work, we introduce a novel automatic speaker video colorization system which provides controllability to the user while also maintaining high colorization quality relative to state-of-the-art techniques. We name this system ControlCol. ControlCol performs 3.5% better than the previous state-of-the-art DeOldify on the Grid and Lombard Grid datasets when PSNR, SSIM, FID and FVD are used as metrics. This result is also supported by our human evaluation, where in a head-to-head comparison, ControlCol is preferred 90% of the time to DeOldify. Example videos can be seen in the supplementary material.
- Abstract(参考訳): 自動的に白黒のスピーカービデオに色を加えることは、非常に望ましいテクニックだ。
最高の結果を得るために人間との相互作用を必要とする芸術的プロセスである。
既存のビデオの自動着色システムの多くは、ユーザが着色プロセスをガイドする機会をほとんど提供しない。
本研究では,ユーザに対して,最先端技術に対して高いカラー化品質を維持しつつ,ユーザに対して制御性を提供する,新しい自動話者映像カラー化システムを提案する。
このシステムを ControlCol と名付けます。
ControlColは、PSNR、SSIM、FID、FVDがメトリクスとして使用される場合、Grid and Lombard Gridデータセットの最先端のDeOldifyよりも3.5%パフォーマンスがよい。
この結果は,DeOldify の時間の90%が ControlCol の方が好まれる,という人間の評価にも裏付けられている。
例のビデオは補足資料で見ることができる。
関連論文リスト
- VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization [53.35016574938809]
ビデオのカラー化は、時間的一貫性と構造的整合性を維持しながら、グレースケールのビデオを鮮やかな色表現に変換することを目的としている。
既存のビデオカラー化法は、しばしば色出血に悩まされ、包括的な制御が欠如している。
我々はVanGoghを紹介した。VanGoghはビデオカラー化のためのマルチモーダル拡散に基づく統合フレームワークである。
論文 参考訳(メタデータ) (2025-01-16T12:20:40Z) - DreamColour: Controllable Video Colour Editing without Training [80.90808879991182]
直感的なインタフェースにより、正確な映像色編集を可能にする訓練不要のフレームワークを提案する。
色編集の空間的側面と時間的側面を分離することにより、ユーザの自然なワークフローをより良く整合させることができる。
当社のアプローチは、トレーニングや特別なハードウェアの必要性を排除しつつ、最先端の手法に適合または超越しています。
論文 参考訳(メタデータ) (2024-12-06T16:57:54Z) - L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文 参考訳(メタデータ) (2024-10-07T12:16:21Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - Improving Video Colorization by Test-Time Tuning [79.67548221384202]
テスト時間チューニングによる映像の着色性向上を目的とした,効果的な手法を提案する。
提案手法は,テスト中に追加のトレーニングサンプルを構築するための基準を利用して,PSNRにおいて平均13dBの性能向上を実現している。
論文 参考訳(メタデータ) (2023-06-25T05:36:40Z) - Temporally Consistent Video Colorization with Deep Feature Propagation
and Self-regularization Learning [90.38674162878496]
時間的に一貫した新しいビデオカラー化フレームワーク(TCVC)を提案する。
TCVCは、フレームレベルの深い特徴を双方向的に効果的に伝播し、色付けの時間的一貫性を高める。
実験により,本手法は視覚的に満足な色付きビデオを得るだけでなく,最先端の手法よりも時間的整合性が得られることが示された。
論文 参考訳(メタデータ) (2021-10-09T13:00:14Z) - Towards Vivid and Diverse Image Colorization with Generative Color Prior [17.087464490162073]
最近のディープラーニングベースの手法は、画像のカラー化を低コストで行うことができる。
我々は,事前学習されたGAN(Generative Adversarial Networks)にカプセル化されている,豊かで多様な色を活かして鮮やかな色を復元することを目的としている。
先進的なデザインと繊細なデザインの強力な生成色のおかげで、我々の手法は1つの前進パスで鮮やかな色を作り出すことができた。
論文 参考訳(メタデータ) (2021-08-19T17:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。