論文の概要: MangaDiT: Reference-Guided Line Art Colorization with Hierarchical Attention in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2508.09709v1
- Date: Wed, 13 Aug 2025 11:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.862678
- Title: MangaDiT: Reference-Guided Line Art Colorization with Hierarchical Attention in Diffusion Transformers
- Title(参考訳): MangaDiT:拡散変圧器の階層的注意による基準誘導ラインアートカラー化
- Authors: Qianru Qiu, Jiafeng Mao, Kento Masui, Xueting Wang,
- Abstract要約: 拡散変換器(DiT)に基づくラインアートカラー化のための強力なモデルMangaDiTを提案する。
本モデルでは,ラインアートと参照画像の両方を条件付き入力とし,動的アテンション重み付け戦略を備えた階層型アテンション機構を導入する。
2つのベンチマークデータセットの実験により、我々の手法は最先端のアプローチを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 5.312303275762103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models have significantly improved the performance of reference-guided line art colorization. However, existing methods still struggle with region-level color consistency, especially when the reference and target images differ in character pose or motion. Instead of relying on external matching annotations between the reference and target, we propose to discover semantic correspondences implicitly through internal attention mechanisms. In this paper, we present MangaDiT, a powerful model for reference-guided line art colorization based on Diffusion Transformers (DiT). Our model takes both line art and reference images as conditional inputs and introduces a hierarchical attention mechanism with a dynamic attention weighting strategy. This mechanism augments the vanilla attention with an additional context-aware path that leverages pooled spatial features, effectively expanding the model's receptive field and enhancing region-level color alignment. Experiments on two benchmark datasets demonstrate that our method significantly outperforms state-of-the-art approaches, achieving superior performance in both qualitative and quantitative evaluations.
- Abstract(参考訳): 近年の拡散モデルにより, ラインアートのカラー化性能が大幅に向上した。
しかし、既存の手法は、特に参照画像とターゲット画像が文字のポーズや動きで異なる場合、領域レベルの色一貫性に苦慮している。
参照とターゲット間の外部マッチングアノテーションに頼る代わりに、内部の注意機構を通して暗黙的に意味的対応を発見することを提案する。
本稿では,Diffusion Transformers (DiT) に基づくラインアートカラー化のための強力なモデルであるMangaDiTを提案する。
本モデルでは,ラインアートと参照画像の両方を条件付き入力とし,動的アテンション重み付け戦略を備えた階層型アテンション機構を導入する。
このメカニズムは、プール化された空間的特徴を活用し、モデルの受容領域を効果的に拡張し、領域レベルの色アライメントを強化する、追加のコンテキスト認識パスでバニラの注意を増大させる。
2つのベンチマークデータセットを用いた実験により,本手法は最先端の手法よりも優れ,定性評価と定量的評価の両方において優れた性能を発揮することが示された。
関連論文リスト
- ColorizeDiffusion v2: Enhancing Reference-based Sketch Colorization Through Separating Utilities [28.160601838418433]
参照ベースのスケッチカラー化手法は、アニメーション制作業界における潜在的な応用のために、大きな注目を集めている。
既存の手法の多くは、意味的かつ空間的に整合したスケッチ、参照、地上真実のイメージ三部作で訓練されている。
このトレーニングと推論間のデータ分布のミスマッチは、過度に適合し、空間的アーティファクトと全体的な色付け品質が著しく低下する。
論文 参考訳(メタデータ) (2025-04-09T13:55:32Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - MangaNinja: Line Art Colorization with Precise Reference Following [84.2001766692797]
MangaNinjiaは、ラインアートのカラー化に特化している。
文字の詳細を正確に書き起こすために、2つの思慮深い設計を取り入れる。
基準カラー画像と対象ラインアートとの対応学習を容易にするパッチシャッフルモジュールと、きめ細かい色マッチングを可能にするポイント駆動制御スキームとを備える。
論文 参考訳(メタデータ) (2025-01-14T18:59:55Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - PUGAN: Physical Model-Guided Underwater Image Enhancement Using GAN with
Dual-Discriminators [120.06891448820447]
鮮明で視覚的に快適な画像を得る方法は、人々の共通の関心事となっている。
水中画像強調(UIE)の課題も、時間とともに現れた。
本稿では,UIE のための物理モデル誘導型 GAN モデルを提案する。
我々のPUGANは質的および定量的な測定値において最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-06-15T07:41:12Z) - Attention-Aware Anime Line Drawing Colorization [10.924683447616273]
本稿では,チャンネルワイド・空間ワイド・コンボリューショナル・アテンション・モジュールを用いたアニメラインドローイングカラー化のための注目モデルを提案する。
提案手法は,より正確な線構造と意味的色情報を用いて,他のSOTA法よりも優れている。
論文 参考訳(メタデータ) (2022-12-21T12:50:31Z) - Eliminating Gradient Conflict in Reference-based Line-art Colorization [26.46476996150605]
参照ベースのラインアートカラー化は、コンピュータビジョンにおいて難しい課題である。
SGA(Stop-Gradient Attention)を用いた新しい注意機構を提案する。
ラインアートカラー化における最先端モジュールと比較して,本手法は大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-13T10:08:37Z) - Attention-based Stylisation for Exemplar Image Colourisation [3.491870689686827]
この研究は、新しいエンドツーエンドカラーネットワークを導入する既存の方法論を改革する。
提案アーキテクチャでは,異なる解像度でアテンションモジュールを統合し,スタイル転送タスクの実行方法を学ぶ。
提案手法の有効性を実験的に検証し,高品質で視覚に訴える色彩を呈する手法を提案する。
論文 参考訳(メタデータ) (2021-05-04T18:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。