論文の概要: DACoN: DINO for Anime Paint Bucket Colorization with Any Number of Reference Images
- arxiv url: http://arxiv.org/abs/2509.14685v2
- Date: Wed, 01 Oct 2025 06:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 17:16:29.736613
- Title: DACoN: DINO for Anime Paint Bucket Colorization with Any Number of Reference Images
- Title(参考訳): DACoN:DINO for Anime Paint Bucket Colorization with any number of Reference Images
- Authors: Kazuma Nagata, Naoshi Kaneko,
- Abstract要約: DACoNは、基礎モデルを利用して、ライン描画でも部分レベルのセマンティクスをキャプチャするフレームワークである。
提案手法は,CNNから高分解能な空間的特徴を持つ基礎モデルから低分解能な意味的特徴を融合して,きめ細かな特徴抽出を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic colorization of line drawings has been widely studied to reduce the labor cost of hand-drawn anime production. Deep learning approaches, including image/video generation and feature-based correspondence, have improved accuracy but struggle with occlusions, pose variations, and viewpoint changes. To address these challenges, we propose DACoN, a framework that leverages foundation models to capture part-level semantics, even in line drawings. Our method fuses low-resolution semantic features from foundation models with high-resolution spatial features from CNNs for fine-grained yet robust feature extraction. In contrast to previous methods that rely on the Multiplex Transformer and support only one or two reference images, DACoN removes this constraint, allowing any number of references. Quantitative and qualitative evaluations demonstrate the benefits of using multiple reference images, achieving superior colorization performance. Our code and model are available at https://github.com/kzmngt/DACoN.
- Abstract(参考訳): 線画の自動着色は,手描きアニメ製作の作業コストを削減するために広く研究されている。
画像/ビデオ生成や特徴ベースの対応を含むディープラーニングアプローチは、精度を向上したが、オクルージョン、ポーズのバリエーション、視点の変化に苦慮している。
これらの課題に対処するために,基礎モデルを利用して,ライン描画においても,部分レベルのセマンティクスをキャプチャするフレームワークであるDACoNを提案する。
提案手法は,CNNから高分解能な空間的特徴を持つ基礎モデルから低分解能な意味的特徴を融合して,きめ細かな特徴抽出を行う。
Multiplex Transformerに依存して1つまたは2つの参照イメージのみをサポートする従来のメソッドとは対照的に、DACoNはこの制約を取り除き、任意の数の参照を可能にする。
定量的および定性的な評価は、複数の参照画像を使用することの利点を示し、より優れた色付け性能を実現する。
私たちのコードとモデルはhttps://github.com/kzmngt/DACoN.comで公開されています。
関連論文リスト
- MangaNinja: Line Art Colorization with Precise Reference Following [84.2001766692797]
MangaNinjiaは、ラインアートのカラー化に特化している。
文字の詳細を正確に書き起こすために、2つの思慮深い設計を取り入れる。
基準カラー画像と対象ラインアートとの対応学習を容易にするパッチシャッフルモジュールと、きめ細かい色マッチングを可能にするポイント駆動制御スキームとを備える。
論文 参考訳(メタデータ) (2025-01-14T18:59:55Z) - Modification Takes Courage: Seamless Image Stitching via Reference-Driven Inpainting [0.1696421797495086]
現在の画像縫合法は、不均一な色相や大きな視差のような挑戦的なシナリオにおいて顕著な縫い目を生み出す。
本稿では, 画像の融合と整形を基準ベースインペイントモデルとして再構成する参照駆動型インペイント・スティッチャ (RDIStitcher) を提案する。
本稿では,Multimodal Large Language Models (MLLM) を用いた画像品質評価手法を提案する。
論文 参考訳(メタデータ) (2024-11-15T16:05:01Z) - RefFusion: Reference Adapted Diffusion Models for 3D Scene Inpainting [63.567363455092234]
RefFusionは,画像インペイント拡散モデルのマルチスケールパーソナライズに基づく,新しい3Dインペイント手法である。
我々のフレームワークは、制御性を維持しながら、オブジェクト除去の最先端の成果を達成する。
論文 参考訳(メタデータ) (2024-04-16T17:50:02Z) - ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text [5.675944597452309]
事前学習したCLIP画像エンコーダの異なる画像トークンを利用した画像誘導潜時拡散モデルの2つのバリエーションを紹介する。
重み付きテキスト入力を用いて結果の逐次的調整を行うための,対応する操作手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T22:46:12Z) - Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency [78.0488707697235]
ASUKA(Aigned Stable Inpainting with UnKnown Areas)と呼ばれるポストプロセッシングアプローチは、インパインティングモデルを改善する。
Masked Auto-Encoder (MAE) は、オブジェクト幻覚を緩和する。
ローカルタスクとしてラテント・ツー・イメージ・デコーディングを扱う特殊なVAEデコーダ。
論文 参考訳(メタデータ) (2023-12-08T05:08:06Z) - Diverse Inpainting and Editing with GAN Inversion [4.234367850767171]
近年の逆転法では、実画像はStyleGANの潜伏空間に逆転可能であることが示されている。
本稿では,より困難な課題に取り組み,消去された画像をGANの潜伏空間に逆転させ,リアルな塗り絵や編集を行う。
論文 参考訳(メタデータ) (2023-07-27T17:41:36Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - Blind Face Restoration via Deep Multi-scale Component Dictionaries [75.02640809505277]
劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。
DFDNetは高品質な画像から知覚的に重要な顔成分のディープ辞書を生成する。
コンポーネントAdaINは、入力機能と辞書機能の間のスタイルの多様性を取り除くために利用される。
論文 参考訳(メタデータ) (2020-08-02T07:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。