論文の概要: Controllable Image Colorization with Instance-aware Texts and Masks
- arxiv url: http://arxiv.org/abs/2505.08705v1
- Date: Tue, 13 May 2025 16:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.666127
- Title: Controllable Image Colorization with Instance-aware Texts and Masks
- Title(参考訳): インスタンス対応テキストとマスクによる可制御画像のカラー化
- Authors: Yanru An, Ling Gui, Qiang Hu, Chunlei Cai, Tianxiao Ye, Xiaoyun Zhang, Yanfeng Wang,
- Abstract要約: 現在の主流の画像カラー化モデルは、カラー出血やカラーバインディングエラーといった問題に直面している。
利用指導による高精度なインスタンス認識カラー化を実現するために,拡散型カラー化手法MT-Colorを提案する。
我々は、既存の画像データセット上で大きな視覚言語モデルを活用することで、インスタンスレベルのカラー化タスクであるGPTカラーのための特別なデータセットを作成しました。
- 参考スコア(独自算出の注目度): 28.34077181502317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the application of deep learning in image colorization has received widespread attention. The maturation of diffusion models has further advanced the development of image colorization models. However, current mainstream image colorization models still face issues such as color bleeding and color binding errors, and cannot colorize images at the instance level. In this paper, we propose a diffusion-based colorization method MT-Color to achieve precise instance-aware colorization with use-provided guidance. To tackle color bleeding issue, we design a pixel-level mask attention mechanism that integrates latent features and conditional gray image features through cross-attention. We use segmentation masks to construct cross-attention masks, preventing pixel information from exchanging between different instances. We also introduce an instance mask and text guidance module that extracts instance masks and text representations of each instance, which are then fused with latent features through self-attention, utilizing instance masks to form self-attention masks to prevent instance texts from guiding the colorization of other areas, thus mitigating color binding errors. Furthermore, we apply a multi-instance sampling strategy, which involves sampling each instance region separately and then fusing the results. Additionally, we have created a specialized dataset for instance-level colorization tasks, GPT-color, by leveraging large visual language models on existing image datasets. Qualitative and quantitative experiments show that our model and dataset outperform previous methods and datasets.
- Abstract(参考訳): 近年,画像カラー化における深層学習の適用が注目されている。
拡散モデルの成熟により、画像の着色モデルの開発がさらに進んだ。
しかし、現在の主流の画像カラー化モデルは、カラーブラインドやカラーバインディングエラーなどの問題に直面しており、インスタンスレベルでのイメージのカラー化はできない。
本稿では,展開型カラー化手法MT-Colorを提案する。
カラーブラインド問題に対処するため,クロスアテンションによる遅延特徴と条件付き灰色の画像特徴を統合する画素レベルのマスクアテンション機構を設計した。
セグメンテーションマスクを用いて、クロスアテンションマスクを構築し、画素情報が異なるインスタンス間で交換されるのを防ぐ。
また、インスタンスマスクとテキスト誘導モジュールを導入し、各インスタンスのインスタンスマスクとテキスト表現を抽出し、インスタンスマスクを利用して自己注意マスクを作成し、インスタンステキストが他の領域の着色を誘導するのを防ぐことにより、カラーバインディングエラーを緩和する。
さらに,各インスタンス領域を個別にサンプリングし,その結果を融合させるマルチインスタンスサンプリング戦略を適用した。
さらに、既存の画像データセット上で大きな視覚言語モデルを活用することで、インスタンスレベルのカラー化タスクであるGPTカラーのための特別なデータセットを作成しました。
定性的かつ定量的な実験は、我々のモデルとデータセットが以前の手法やデータセットより優れていることを示している。
関連論文リスト
- MagicColor: Multi-Instance Sketch Colorization [44.72374445094054]
MagicColorは、マルチインスタンススケッチのカラー化のための拡散ベースのフレームワークである。
本モデルでは,手作業による調整を一切行わず,カラー化プロセスの自動化を重要視する。
論文 参考訳(メタデータ) (2025-03-21T08:53:14Z) - ColorFlow: Retrieval-Augmented Image Sequence Colorization [65.93834649502898]
産業用途における画像シーケンスのカラー化に適した3段階拡散に基づくフレームワークを提案する。
IDごとの微調整や明示的なID埋め込み抽出を必要とする既存の手法とは異なり、我々は新たにRetrieval Augmented Colorization Pipelineを提案する。
パイプラインには、カラーアイデンティティ抽出のためのブランチと、カラー化のためのブランチという、デュアルブランチ設計も備えています。
論文 参考訳(メタデータ) (2024-12-16T14:32:49Z) - ColorEdit: Training-free Image-Guided Color editing with diffusion model [23.519884152019642]
画像編集タスクにはテキスト・ツー・イメージ(T2I)拡散モデルが採用されており、顕著な有効性を示している。
しかし, テキストプロンプトから, 物体のクロスアテンションマップと新たな色属性との衝突や注意漏れにより, テキスト誘導画像編集法では物体の色が変化しない可能性がある。
本稿では,物体の色を微調整や訓練を必要とせず,手軽で安定的で効果的な画像誘導手法を提案する。
論文 参考訳(メタデータ) (2024-11-15T14:45:58Z) - Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - InstanceDiffusion: Instance-level Control for Image Generation [89.31908006870422]
InstanceDiffusionは、テキストから画像への拡散モデルに正確なインスタンスレベルの制御を追加する。
そこで本研究では,テキスト・ツー・イメージ・モデルに3つの大きな変更を加えて,高精度なインスタンスレベルの制御を実現する。
論文 参考訳(メタデータ) (2024-02-05T18:49:17Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。
我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。
類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文 参考訳(メタデータ) (2020-05-21T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。