論文の概要: Exploring Palette based Color Guidance in Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.08754v1
- Date: Tue, 12 Aug 2025 09:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.35837
- Title: Exploring Palette based Color Guidance in Diffusion Models
- Title(参考訳): 拡散モデルにおけるパレットに基づくカラーガイダンスの探索
- Authors: Qianru Qiu, Jiafeng Mao, Xueting Wang,
- Abstract要約: そこで本研究では、カラーパレットをインシデント命令と並行して個別の誘導機構として統合することで、カラースキーム制御を強化する新しい手法を提案する。
この結果から,パレットガイダンスを取り入れることで,所望のカラースキームで画像を生成する能力が大幅に向上することが示唆された。
- 参考スコア(独自算出の注目度): 5.80330969550483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of diffusion models, Text-to-Image (T2I) generation has seen substantial advancements. Current T2I models allow users to specify object colors using linguistic color names, and some methods aim to personalize color-object association through prompt learning. However, existing models struggle to provide comprehensive control over the color schemes of an entire image, especially for background elements and less prominent objects not explicitly mentioned in prompts. This paper proposes a novel approach to enhance color scheme control by integrating color palettes as a separate guidance mechanism alongside prompt instructions. We investigate the effectiveness of palette guidance by exploring various palette representation methods within a diffusion-based image colorization framework. To facilitate this exploration, we construct specialized palette-text-image datasets and conduct extensive quantitative and qualitative analyses. Our results demonstrate that incorporating palette guidance significantly improves the model's ability to generate images with desired color schemes, enabling a more controlled and refined colorization process.
- Abstract(参考訳): 拡散モデルの出現に伴い、テキスト・ツー・イメージ(T2I)生成は大幅に進歩した。
現在のT2Iモデルでは、言語的色名を用いてオブジェクトの色を指定することが可能であり、いくつかの方法は、迅速な学習を通じて色とオブジェクトの関連をパーソナライズすることを目的としている。
しかし、既存のモデルは、特に背景要素やプロンプトで明示的に言及されていないあまり顕著でないオブジェクトに対して、画像全体の色スキームを包括的に制御するのに苦労している。
本稿では,カラーパレットをプロンプト命令と並行して個別の誘導機構として統合することで,カラースキーム制御を強化する新しい手法を提案する。
拡散型画像カラー化フレームワークにおけるパレット表現手法を探索し,パレット誘導の有効性について検討した。
この探索を容易にするため、我々はパレット・テキスト・イメージの特殊なデータセットを構築し、広範囲な量的・質的な分析を行う。
以上の結果から,パレットガイダンスの導入により,所望のカラースキームで画像を生成する能力が大幅に向上し,より制御された,洗練されたカラー化プロセスが実現された。
関連論文リスト
- ColorGPT: Leveraging Large Language Models for Multimodal Color Recommendation [4.714111142188893]
我々は,事前学習されたLarge Language Models (LLMs) の利用と,カラーレコメンデーションのためのコモンセンス推論機能について検討する。
提案手法は,与えられた色と付随するコンテキストのセットに基づいて色を推奨することで,色パレットの補完を主目的とした。
提案手法は全パレット生成に拡張可能であり, 提供されるテキスト記述に対応する全カラーパレットを生成する。
論文 参考訳(メタデータ) (2025-08-12T14:56:11Z) - Free-Lunch Color-Texture Disentanglement for Stylized Image Generation [58.406368812760256]
本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。
色とテクスチャの基準画像からCTE(Color-Texture Embeddings)を分離・抽出する技術を開発した。
生成した画像の色パレットが色基準と密接に一致していることを確認するため、白と彩色変換を適用する。
論文 参考訳(メタデータ) (2025-03-18T14:10:43Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - MangaNinja: Line Art Colorization with Precise Reference Following [84.2001766692797]
MangaNinjiaは、ラインアートのカラー化に特化している。
文字の詳細を正確に書き起こすために、2つの思慮深い設計を取り入れる。
基準カラー画像と対象ラインアートとの対応学習を容易にするパッチシャッフルモジュールと、きめ細かい色マッチングを可能にするポイント駆動制御スキームとを備える。
論文 参考訳(メタデータ) (2025-01-14T18:59:55Z) - ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement [20.45850285936787]
ユーザが選択した色に合わせて、特定の色プロンプトを学習することを提案する。
我々の手法はColorPeelと呼ばれ、T2Iモデルが新しいカラープロンプトを剥がすのに役立ちます。
本研究は,T2Iモデルの精度と汎用性向上に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-07-09T19:26:34Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Multimodal Color Recommendation in Vector Graphic Documents [14.287758028119788]
色とテキストのコンテキストを統合したマルチモーダルマスクカラーモデルを提案し、グラフィック文書のテキスト対応カラーレコメンデーションを提供する。
提案モデルは,複数のパレットにおける色間の関係をキャプチャする自己注意ネットワークと,色とCLIPに基づくテキスト表現を組み込んだ相互注意ネットワークから構成される。
論文 参考訳(メタデータ) (2023-08-08T08:17:39Z) - Language-based Photo Color Adjustment for Graphic Designs [38.43984897069872]
画像のリカラー化のための対話型言語ベースのアプローチを提案する。
本モデルでは,ソース色と対象領域を予測し,与えられた言語に基づく指示に基づいて,対象領域をソース色で再色することができる。
論文 参考訳(メタデータ) (2023-08-06T08:53:49Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z) - PalGAN: Image Colorization with Palette Generative Adversarial Networks [51.59276436217957]
そこで本研究では,パレット推定とカラーアテンションを統合した新しいGANベースのカラー化手法PalGANを提案する。
PalGANは、定量的評価と視覚比較において最先端の成果を上げ、顕著な多様性、コントラスト、およびエッジ保存の外観を提供する。
論文 参考訳(メタデータ) (2022-10-20T12:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。