論文の概要: Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization
- arxiv url: http://arxiv.org/abs/2505.15812v1
- Date: Wed, 21 May 2025 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.828738
- Title: Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization
- Title(参考訳): 模擬画像色化のための事前学習拡散モデルのパワーフルアテンションの活用
- Authors: Satoshi Kosugi,
- Abstract要約: Exemplar-based image colorizationは、基準色画像を用いてグレースケールイメージを彩色することを目的としている。
本稿では,事前学習した拡散モデルに基づく,新しい微調整不要な手法を提案する。
実験の結果,提案手法は画像の画質と忠実度において既存の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 4.233370898095789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exemplar-based image colorization aims to colorize a grayscale image using a reference color image, ensuring that reference colors are applied to corresponding input regions based on their semantic similarity. To achieve accurate semantic matching between regions, we leverage the self-attention module of a pre-trained diffusion model, which is trained on a large dataset and exhibits powerful attention capabilities. To harness this power, we propose a novel, fine-tuning-free approach based on a pre-trained diffusion model, making two key contributions. First, we introduce dual attention-guided color transfer. We utilize the self-attention module to compute an attention map between the input and reference images, effectively capturing semantic correspondences. The color features from the reference image is then transferred to the semantically matching regions of the input image, guided by this attention map, and finally, the grayscale features are replaced with the corresponding color features. Notably, we utilize dual attention to calculate attention maps separately for the grayscale and color images, achieving more precise semantic alignment. Second, we propose classifier-free colorization guidance, which enhances the transferred colors by combining color-transferred and non-color-transferred outputs. This process improves the quality of colorization. Our experimental results demonstrate that our method outperforms existing techniques in terms of image quality and fidelity to the reference. Specifically, we use 335 input-reference pairs from previous research, achieving an FID of 95.27 (image quality) and an SI-FID of 5.51 (fidelity to the reference). Our source code is available at https://github.com/satoshi-kosugi/powerful-attention.
- Abstract(参考訳): Exemplar-based image colorizationは、参照色画像を用いてグレースケール画像をカラー化することを目的としており、その意味的類似性に基づいて、対応する入力領域に参照色を適用することを保証する。
領域間の正確なセマンティックマッチングを実現するために,事前学習した拡散モデルの自己認識モジュールを利用する。
このパワーを活用するために、事前学習した拡散モデルに基づく、新しい微調整不要なアプローチを提案し、2つの重要な貢献を行った。
まず、デュアルアテンション誘導カラートランスファーを導入する。
我々は、自己認識モジュールを用いて、入力画像と参照画像の間の注意マップを計算し、意味的対応を効果的に捉える。
そして、基準画像からの色特徴を入力画像の意味的一致領域に転送し、この注目マップでガイドし、最終的に、グレースケール特徴を対応する色特徴に置き換える。
特に、2重注意を利用して、グレースケールとカラー画像の注意マップを別々に計算し、より正確なセマンティックアライメントを実現する。
第2に,色変換と非色変換を併用することで色変換を促進できる分類器フリーカラー化指導法を提案する。
このプロセスは色付けの質を向上させる。
実験の結果,提案手法は画像の画質と忠実度において既存の手法よりも優れていることが示された。
具体的には,従来の335対の入力参照ペアを用いて,95.27のFID(画像品質)と5.51のSI-FID(参照への忠実性)を実現している。
ソースコードはhttps://github.com/satoshi-kosugi/powerful-attention.comで公開しています。
関連論文リスト
- Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - MangaNinja: Line Art Colorization with Precise Reference Following [84.2001766692797]
MangaNinjiaは、ラインアートのカラー化に特化している。
文字の詳細を正確に書き起こすために、2つの思慮深い設計を取り入れる。
基準カラー画像と対象ラインアートとの対応学習を容易にするパッチシャッフルモジュールと、きめ細かい色マッチングを可能にするポイント駆動制御スキームとを備える。
論文 参考訳(メタデータ) (2025-01-14T18:59:55Z) - ColorFlow: Retrieval-Augmented Image Sequence Colorization [65.93834649502898]
産業用途における画像シーケンスのカラー化に適した3段階拡散に基づくフレームワークを提案する。
IDごとの微調整や明示的なID埋め込み抽出を必要とする既存の手法とは異なり、我々は新たにRetrieval Augmented Colorization Pipelineを提案する。
パイプラインには、カラーアイデンティティ抽出のためのブランチと、カラー化のためのブランチという、デュアルブランチ設計も備えています。
論文 参考訳(メタデータ) (2024-12-16T14:32:49Z) - Training-free Color-Style Disentanglement for Constrained Text-to-Image Synthesis [16.634138745034733]
そこで本研究では,参照画像から色とスタイル属性のテキスト・ツー・イメージを分離する,最初のトレーニングフリーでテスト時間のみの手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T04:16:58Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - Detecting Recolored Image by Spatial Correlation [60.08643417333974]
画像のリカラー化は、画像の色値を操作して新しいスタイルを与える、新たな編集技術である。
本稿では,空間相関の観点から,従来型と深層学習による再色検出の汎用的検出能力を示す解を探索する。
提案手法は,複数のベンチマークデータセット上での最先端検出精度を実現し,未知の種類の再色法を適切に一般化する。
論文 参考訳(メタデータ) (2022-04-23T01:54:06Z) - Semantic-Sparse Colorization Network for Deep Exemplar-based
Colorization [23.301799487207035]
模範的なカラー化アプローチは、対象のグレースケール画像に対して可視色を提供するために、参照画像に依存する。
本研究では,グローバルな画像スタイルとセマンティックな色の両方をグレースケールに転送するセマンティック・スパースカラー化ネットワーク(SSCN)を提案する。
我々のネットワークは、あいまいなマッチング問題を緩和しつつ、グローバルカラーとローカルカラーのバランスを完全にとることができる。
論文 参考訳(メタデータ) (2021-12-02T15:35:10Z) - Color2Style: Real-Time Exemplar-Based Image Colorization with
Self-Reference Learning and Deep Feature Modulation [29.270149925368674]
色を鮮やかな色で満たしてグレースケールの画像媒体を復活させるため,カラーカラー化手法としてColor2Styleを提案する。
提案手法は,参照画像から抽出した色埋め込みを入力されたグレースケール画像の深部表現に注入する,単純だが効果的な深部特徴変調(DFM)モジュールを利用する。
論文 参考訳(メタデータ) (2021-06-15T10:05:58Z) - Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。
我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。
類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文 参考訳(メタデータ) (2020-05-21T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。