論文の概要: UniColor: A Unified Framework for Multi-Modal Colorization with
Transformer
- arxiv url: http://arxiv.org/abs/2209.11223v1
- Date: Thu, 22 Sep 2022 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:28:01.312453
- Title: UniColor: A Unified Framework for Multi-Modal Colorization with
Transformer
- Title(参考訳): UniColor: Transformerを使ったマルチモーダルカラー化のための統一フレームワーク
- Authors: Zhitong Huang, Nanxuan Zhao, Jing Liao
- Abstract要約: 各種条件を1つのモデルに組み込むための2段階カラー化フレームワークを提案する。
第一段階では、マルチモーダル条件はヒントポイントの共通表現に変換される。
第2段階では,Chroma-VQGANとHybrid-Transformerで構成されるTransformerベースのネットワークを提案し,ヒント点に条件付き多彩で高品質なカラー化結果を生成する。
- 参考スコア(独自算出の注目度): 23.581502129504287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the first unified framework UniColor to support colorization in
multiple modalities, including both unconditional and conditional ones, such as
stroke, exemplar, text, and even a mix of them. Rather than learning a separate
model for each type of condition, we introduce a two-stage colorization
framework for incorporating various conditions into a single model. In the
first stage, multi-modal conditions are converted into a common representation
of hint points. Particularly, we propose a novel CLIP-based method to convert
the text to hint points. In the second stage, we propose a Transformer-based
network composed of Chroma-VQGAN and Hybrid-Transformer to generate diverse and
high-quality colorization results conditioned on hint points. Both qualitative
and quantitative comparisons demonstrate that our method outperforms
state-of-the-art methods in every control modality and further enables
multi-modal colorization that was not feasible before. Moreover, we design an
interactive interface showing the effectiveness of our unified framework in
practical usage, including automatic colorization, hybrid-control colorization,
local recolorization, and iterative color editing. Our code and models are
available at https://luckyhzt.github.io/unicolor.
- Abstract(参考訳): 我々は,UniColorを統一したフレームワークとして,無条件と条件の両方,例えばストローク,例示,テキスト,さらにはそれらを組み合わせて色付けする手法を提案する。
条件毎に異なるモデルを学習する代わりに、様々な条件を1つのモデルに組み込む2段階のカラー化フレームワークを導入する。
第一段階では、マルチモーダル条件はヒントポイントの共通表現に変換される。
特に,テキストをヒントポイントに変換するCLIPに基づく新しい手法を提案する。
第2段階では,Chroma-VQGANとHybrid-Transformerで構成されるTransformerベースのネットワークを提案し,ヒント点に条件付き多彩で高品質なカラー化結果を生成する。
質的・定量的比較により,本手法はすべての制御モダリティにおいて最先端の手法よりも優れており,これまで実現できなかったマルチモーダルカラー化が可能となった。
さらに,自動カラー化,ハイブリッド制御カラー化,局所再カラー化,反復カラー編集など,実運用における統一フレームワークの有効性を示す対話型インターフェースを設計した。
私たちのコードとモデルはhttps://luckyhzt.github.io/unicolorで利用可能です。
関連論文リスト
- Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。
ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。
ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文 参考訳(メタデータ) (2024-10-25T09:33:27Z) - L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文 参考訳(メタデータ) (2024-10-07T12:16:21Z) - Automatic Controllable Colorization via Imagination [55.489416987587305]
本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。
グレースケール画像内のコンテンツを理解することにより、トレーニング済みの画像生成モデルを用いて、同じコンテンツを含む複数の画像を生成する。
これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。
論文 参考訳(メタデータ) (2024-04-08T16:46:07Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - Video Colorization with Pre-trained Text-to-Image Diffusion Models [19.807766482434563]
ビデオカラー化のための事前訓練されたテキストから画像への潜時拡散モデルの適応であるColorDiffuserを提案する。
本稿では,時間的コヒーレンスを高め,フレーム間の色付けの鮮明さを維持するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-02T17:58:00Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。