論文の概要: Not Every Gift Comes in Gold Paper or with a Red Ribbon: Exploring Color Perception in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2508.19791v1
- Date: Wed, 27 Aug 2025 11:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.608484
- Title: Not Every Gift Comes in Gold Paper or with a Red Ribbon: Exploring Color Perception in Text-to-Image Models
- Title(参考訳): 金紙や赤いリボンで全てのギフトが生まれるわけではない:テキスト・画像モデルにおける色知覚の探索
- Authors: Shay Shomer Chai, Wenxuan Peng, Bharath Hariharan, Hadar Averbuch-Elor,
- Abstract要約: 複数色を含むプロンプトに対する多目的セマンティックアライメントの問題を緩和する専用画像編集手法を提案する。
本手法は,様々なテキスト・画像拡散技術を用いて生成した画像から,幅広いメトリクスに対して性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 40.094195503306295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation has recently seen remarkable success, granting users with the ability to create high-quality images through the use of text. However, contemporary methods face challenges in capturing the precise semantics conveyed by complex multi-object prompts. Consequently, many works have sought to mitigate such semantic misalignments, typically via inference-time schemes that modify the attention layers of the denoising networks. However, prior work has mostly utilized coarse metrics, such as the cosine similarity between text and image CLIP embeddings, or human evaluations, which are challenging to conduct on a larger-scale. In this work, we perform a case study on colors -- a fundamental attribute commonly associated with objects in text prompts, which offer a rich test bed for rigorous evaluation. Our analysis reveals that pretrained models struggle to generate images that faithfully reflect multiple color attributes-far more so than with single-color prompts-and that neither inference-time techniques nor existing editing methods reliably resolve these semantic misalignments. Accordingly, we introduce a dedicated image editing technique, mitigating the issue of multi-object semantic alignment for prompts containing multiple colors. We demonstrate that our approach significantly boosts performance over a wide range of metrics, considering images generated by various text-to-image diffusion-based techniques.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションは、最近顕著な成功を収めており、ユーザーはテキストを使って高品質な画像を作成することができる。
しかし、現代の手法は複雑な多目的プロンプトによって伝達される正確な意味を捉える上で困難に直面している。
その結果、多くの研究がこのような意味的ミスアライメントを軽減しようと試みており、典型的には推論時スキームによって認知ネットワークの注意層を修正している。
しかしながら、以前の作業では、テキストと画像のCLIP埋め込みのコサイン類似性や、大規模な実行が困難な人的評価など、粗いメトリクスを主に利用していました。
本研究では,テキストプロンプト中のオブジェクトに共通する基本的な属性である色に関するケーススタディを実施し,厳密な評価のためのリッチなテストベッドを提供する。
分析の結果、事前学習されたモデルは、単色プロンプトよりも複数の色属性を忠実に反映した画像を生成するのに苦労していることが判明した。
そこで本研究では,複数の色を含むプロンプトに対する多目的セマンティックアライメントの問題を緩和する,専用の画像編集手法を提案する。
本手法は,様々なテキスト・画像拡散法により生成した画像から,幅広い指標に対して性能を著しく向上させることを実証する。
関連論文リスト
- ColorEdit: Training-free Image-Guided Color editing with diffusion model [23.519884152019642]
画像編集タスクにはテキスト・ツー・イメージ(T2I)拡散モデルが採用されており、顕著な有効性を示している。
しかし, テキストプロンプトから, 物体のクロスアテンションマップと新たな色属性との衝突や注意漏れにより, テキスト誘導画像編集法では物体の色が変化しない可能性がある。
本稿では,物体の色を微調整や訓練を必要とせず,手軽で安定的で効果的な画像誘導手法を提案する。
論文 参考訳(メタデータ) (2024-11-15T14:45:58Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text [5.675944597452309]
事前学習したCLIP画像エンコーダの異なる画像トークンを利用した画像誘導潜時拡散モデルの2つのバリエーションを紹介する。
重み付きテキスト入力を用いて結果の逐次的調整を行うための,対応する操作手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T22:46:12Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Simultaneous Multiple-Prompt Guided Generation Using Differentiable
Optimal Transport [41.265684813975625]
テキストキューから画像を生成することによって操作するテキスト・ツー・イメージ合成アプローチは、一点を論じる。
本稿では,最適輸送(OT)文献に見られるマッチング手法を用いて,多様なプロンプトを忠実に反映できる画像を提案する。
論文 参考訳(メタデータ) (2022-04-18T03:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。