論文の概要: ColorizeDiffusion v2: Enhancing Reference-based Sketch Colorization Through Separating Utilities
- arxiv url: http://arxiv.org/abs/2504.06895v1
- Date: Wed, 09 Apr 2025 13:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:09.878537
- Title: ColorizeDiffusion v2: Enhancing Reference-based Sketch Colorization Through Separating Utilities
- Title(参考訳): ColorizeDiffusion v2: 分離ユーティリティによる参照ベースのスケッチカラー化の強化
- Authors: Dingkun Yan, Xinrui Wang, Yusuke Iwasawa, Yutaka Matsuo, Suguru Saito, Jiaxian Guo,
- Abstract要約: 参照ベースのスケッチカラー化手法は、アニメーション制作業界における潜在的な応用のために、大きな注目を集めている。
既存の手法の多くは、意味的かつ空間的に整合したスケッチ、参照、地上真実のイメージ三部作で訓練されている。
このトレーニングと推論間のデータ分布のミスマッチは、過度に適合し、空間的アーティファクトと全体的な色付け品質が著しく低下する。
- 参考スコア(独自算出の注目度): 28.160601838418433
- License:
- Abstract: Reference-based sketch colorization methods have garnered significant attention due to their potential applications in the animation production industry. However, most existing methods are trained with image triplets of sketch, reference, and ground truth that are semantically and spatially well-aligned, while real-world references and sketches often exhibit substantial misalignment. This mismatch in data distribution between training and inference leads to overfitting, consequently resulting in spatial artifacts and significant degradation in overall colorization quality, limiting potential applications of current methods for general purposes. To address this limitation, we conduct an in-depth analysis of the \textbf{carrier}, defined as the latent representation facilitating information transfer from reference to sketch. Based on this analysis, we propose a novel workflow that dynamically adapts the carrier to optimize distinct aspects of colorization. Specifically, for spatially misaligned artifacts, we introduce a split cross-attention mechanism with spatial masks, enabling region-specific reference injection within the diffusion process. To mitigate semantic neglect of sketches, we employ dedicated background and style encoders to transfer detailed reference information in the latent feature space, achieving enhanced spatial control and richer detail synthesis. Furthermore, we propose character-mask merging and background bleaching as preprocessing steps to improve foreground-background integration and background generation. Extensive qualitative and quantitative evaluations, including a user study, demonstrate the superior performance of our proposed method compared to existing approaches. An ablation study further validates the efficacy of each proposed component.
- Abstract(参考訳): 参照ベースのスケッチカラー化手法は、アニメーション制作業界における潜在的な応用のために、大きな注目を集めている。
しかし、既存のほとんどの手法は、意味的かつ空間的に整合したスケッチ、参照、地上の真実のイメージ三重項で訓練されている。
このトレーニングと推論間のデータ分布のミスマッチは過度に適合し、結果として空間的なアーティファクトが生まれ、全体的な色付け品質が著しく低下し、現在の手法の一般用途への応用が制限される。
この制限に対処するため、参照からスケッチへの情報転送を容易にする潜在表現として定義される‘textbf{carrier} の詳細な分析を行う。
この分析に基づいて,カラー化の異なる側面を最適化するために,キャリアを動的に適応させる新しいワークフローを提案する。
具体的には,空間的に不整合なアーティファクトに対して,空間マスクを用いた分割型クロスアテンション機構を導入し,拡散過程内の領域特異的参照注入を可能にする。
スケッチのセマンティックな無視を緩和するために、我々は専用の背景とスタイルのエンコーダを用いて、潜在特徴空間における詳細な参照情報を伝達し、空間制御の強化とよりリッチな詳細合成を実現する。
さらに,前景の背景統合と背景生成を改善するための前処理ステップとして,文字マスクのマージと背景漂白を提案する。
ユーザスタディを含む大規模定性的・定量的評価は,既存手法と比較して,提案手法の優れた性能を示す。
アブレーション研究は、提案する各成分の有効性をさらに検証する。
関連論文リスト
- MangaNinja: Line Art Colorization with Precise Reference Following [84.2001766692797]
MangaNinjiaは、ラインアートのカラー化に特化している。
文字の詳細を正確に書き起こすために、2つの思慮深い設計を取り入れる。
基準カラー画像と対象ラインアートとの対応学習を容易にするパッチシャッフルモジュールと、きめ細かい色マッチングを可能にするポイント駆動制御スキームとを備える。
論文 参考訳(メタデータ) (2025-01-14T18:59:55Z) - Unsupervised Region-Based Image Editing of Denoising Diffusion Models [50.005612464340246]
本研究では,事前学習した拡散モデルの潜在空間における意味的属性を,それ以上の訓練を伴わずに同定する手法を提案する。
提案手法により,局所的なマスキング領域の正確な意味発見と制御が容易になり,アノテーションの必要がなくなる。
論文 参考訳(メタデータ) (2024-12-17T13:46:12Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-02-20T18:54:04Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - A deep learning approach to clustering visual arts [7.363576598794859]
本稿では,deep Learning approach to cLustering vIsUal artSを提案する。
この方法は、事前訓練された畳み込みネットワークを使用して特徴を抽出し、これらの特徴を深い組込みクラスタリングモデルに供給する。
生の入力データを潜在空間にマッピングするタスクは、この潜在空間内のクラスタセントロイドの集合を見つけるタスクと共同で最適化される。
論文 参考訳(メタデータ) (2021-06-11T08:35:26Z) - Deep convolutional embedding for digitized painting clustering [14.228308494671703]
本稿では,デジタル絵画クラスタリングのための深層畳み込み埋め込みモデルを提案する。
このモデルは、同じ問題に対して他の最先端のディープクラスタリングアプローチより優れている。
提案手法は,絵画データセットにおける視覚的リンク検索や歴史的知識発見など,美術関連タスクに有用である。
論文 参考訳(メタデータ) (2020-03-19T06:49:38Z) - Focus on Semantic Consistency for Cross-domain Crowd Understanding [34.560447389853614]
いくつかのドメイン適応アルゴリズムは、合成データでモデルをトレーニングすることでそれを解放しようとする。
その結果,背景領域における推定誤差が既存手法の性能を阻害していることが判明した。
本稿では,ドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。