論文の概要: Towards High-resolution and Disentangled Reference-based Sketch Colorization
- arxiv url: http://arxiv.org/abs/2603.05971v1
- Date: Fri, 06 Mar 2026 07:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.280896
- Title: Towards High-resolution and Disentangled Reference-based Sketch Colorization
- Title(参考訳): 高分解能・異方性参照型スケッチカラー化に向けて
- Authors: Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo,
- Abstract要約: 本稿では,分布シフトを直接最小化し,品質,解像度,カラー化の可制御性を向上するフレームワークを提案する。
我々はアニメ固有のTagger Networkを採用し、参照画像から細粒度属性を抽出し、SDXLの条件エンコーダを変調して正確な制御を行う。
- 参考スコア(独自算出の注目度): 41.858933067874354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sketch colorization is a critical task for automating and assisting in the creation of animations and digital illustrations. Previous research identified the primary difficulty as the distribution shift between semantically aligned training data and highly diverse test data, and focused on mitigating the artifacts caused by the distribution shift instead of fundamentally resolving the problem. In this paper, we present a framework that directly minimizes the distribution shift, thereby achieving superior quality, resolution, and controllability of colorization. We propose a dual-branch framework to explicitly model the data distributions of the training process and inference process with a semantic-aligned branch and a semantic-misaligned branch, respectively. A Gram Regularization Loss is applied across the feature maps of both branches, effectively enforcing cross-domain distribution coherence and stability. Furthermore, we adopt an anime-specific Tagger Network to extract fine-grained attributions from reference images and modulate SDXL's conditional encoders to ensure precise control, and a plugin module to enhance texture transfer. Quantitative and qualitative comparisons, alongside user studies, confirm that our method effectively overcomes the distribution shift challenge, establishing State-of-the-Art performance across both quality and controllability metrics. Ablation study reveals the influence of each component.
- Abstract(参考訳): スケッチのカラー化はアニメーションやデジタルイラストの作成を自動化し支援するための重要なタスクである。
従来の研究では、セマンティック・アライメント・トレーニング・データと高度に多様なテスト・データの間の分布シフトが、問題を根本的に解決するのではなく、分布シフトによって引き起こされるアーティファクトの緩和に重点を置いていた。
本稿では,分布シフトを直接最小化することで,カラー化の精度,解像度,可制御性を向上するフレームワークを提案する。
本稿では,学習プロセスと推論プロセスのデータ分布を,それぞれセマンティック整合分岐とセマンティック整合分岐で明示的にモデル化するデュアルブランチフレームワークを提案する。
グラム正規化損失は、両方の枝の特徴マップにまたがって適用され、ドメイン間の分布のコヒーレンスと安定性を効果的に強制する。
さらに,アニメ固有のTagger Networkを用いて,参照画像から微粒な属性を抽出し,SDXLの条件エンコーダを変調して正確な制御を実現する。
定量的および定性的な比較は、ユーザスタディとともに、我々の手法が分散シフトの課題を効果的に克服し、品質と可制御性の両方の指標で最先端のパフォーマンスを確立することを確認する。
アブレーション研究は各成分の影響を明らかにする。
関連論文リスト
- A Theory-Inspired Framework for Few-Shot Cross-Modal Sketch Person Re-Identification [5.499165736807566]
スケッチをベースとした人物の再識別は、手描きのスケッチとRGBの監視画像とをマッチングすることを目的としている。
KTCAAは,数発のクロスモーダル一般化のためのフレームワークである。
我々は,KTCAAが特にデータスカース条件下で,最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-11-24T01:26:46Z) - Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis [0.0]
複雑な教師モデルからコンパクトで効率的な学生モデルに知識を伝達する進歩的知識蒸留フレームワークを提案する。
再生ケルネルヒルベルト空間(RKHS)における平均および分散統計を利用してラベル間の事前確率分布を組み込むELMMSD(Enhanced Local Maximum Mean Squared Discrepancy)を導入する。
論文 参考訳(メタデータ) (2025-01-13T10:05:47Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - A Simplified Framework for Contrastive Learning for Node Representations [2.277447144331876]
グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。
組込み行列の単純なカラムワイド後処理により, 組込み結果の品質とトレーニング時間を大幅に改善できることを示す。
この修正により、下流の分類タスクは最大1.5%改善され、8つの異なるベンチマークのうち6つで既存の最先端のアプローチに勝っている。
論文 参考訳(メタデータ) (2023-05-01T02:04:36Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Semi-Supervised Semantic Segmentation with Cross-Consistency Training [8.894935073145252]
セマンティックセグメンテーションのための新しいクロス一貫性に基づく半教師付きアプローチを提案する。
提案手法は,いくつかのデータセットにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-19T20:10:37Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。