論文の概要: Control-CLIP: Decoupling Category and Style Guidance in CLIP for Specific-Domain Generation
- arxiv url: http://arxiv.org/abs/2502.11532v1
- Date: Mon, 17 Feb 2025 08:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:44.609085
- Title: Control-CLIP: Decoupling Category and Style Guidance in CLIP for Specific-Domain Generation
- Title(参考訳): Control-CLIP:特定のドメイン生成のためのCLIPにおけるカテゴリとスタイルガイダンスの分離
- Authors: Zexi Jia, Chuanwei Huang, Hongyan Fei, Yeshuang Zhu, Zhiqiang Yuan, Jinchao Zhang, Jie Zhou,
- Abstract要約: Control-CLIPはCLIPファインチューニングフレームワークである。
CLIPモデルは、補完的な方法でカテゴリとスタイルの意味を学ぶことができる。
複数の領域にまたがる実験により,本手法の有効性が確認された。
- 参考スコア(独自算出の注目度): 26.57958479362817
- License:
- Abstract: Text-to-image diffusion models have shown remarkable capabilities of generating high-quality images closely aligned with textual inputs. However, the effectiveness of text guidance heavily relies on the CLIP text encoder, which is trained to pay more attention to general content but struggles to capture semantics in specific domains like styles. As a result, generation models tend to fail on prompts like "a photo of a cat in Pokemon style" in terms of simply producing images depicting "a photo of a cat". To fill this gap, we propose Control-CLIP, a novel decoupled CLIP fine-tuning framework that enables the CLIP model to learn the meaning of category and style in a complement manner. With specially designed fine-tuning tasks on minimal data and a modified cross-attention mechanism, Control-CLIP can precisely guide the diffusion model to a specific domain. Moreover, the parameters of the diffusion model remain unchanged at all, preserving the original generation performance and diversity. Experiments across multiple domains confirm the effectiveness of our approach, particularly highlighting its robust plug-and-play capability in generating content with various specific styles.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルでは,テキスト入力と密に整合した高品質な画像を生成できることが顕著に示されている。
しかし、テキストガイダンスの有効性はCLIPテキストエンコーダに大きく依存しており、一般的なコンテンツにもっと注意を払うように訓練されているが、スタイルのような特定のドメインのセマンティクスを捉えるのに苦労している。
その結果、世代モデルは単に「猫の写真」を描いた画像を作るという観点で「ポケモンスタイルの猫の写真」のようなプロンプトで失敗する傾向にある。
このギャップを埋めるために、CLIPモデルでカテゴリとスタイルの意味を相補的に学習できる新しい分離されたCLIP微調整フレームワークであるCLI-CLIPを提案する。
最小限のデータに関する特別に設計された微調整タスクと修正されたクロスアテンション機構により、制御-CLIPは拡散モデルを特定の領域に正確に導くことができる。
さらに、拡散モデルのパラメータは、元の世代の性能と多様性を保ちながら、全く変化しない。
複数の領域にわたる実験により、このアプローチの有効性が確認され、特に様々なスタイルのコンテンツを生成するための堅牢なプラグイン・アンド・プレイ機能を強調した。
関連論文リスト
- Precise Parameter Localization for Textual Generation in Diffusion Models [7.057901456502796]
新たな拡散モデルでは、高画質のテキストを統合してフォトリアリスティックな画像を合成することができる。
注意アクティベーションパッチでは、拡散モデルのパラメータの1%未満が注意層に含まれており、画像内のテキストコンテンツの生成に影響を与えることが示されている。
テキストコンテンツ生成に責任のあるレイヤをローカライズすることの恩恵を受けるアプリケーションをいくつか紹介する。
論文 参考訳(メタデータ) (2025-02-14T06:11:23Z) - HyperGAN-CLIP: A Unified Framework for Domain Adaptation, Image Synthesis and Manipulation [21.669044026456557]
GAN(Generative Adversarial Networks)は、非常にリアルな画像を生成する際、顕著な能力を示した。
本稿では,CLIP空間をハイパーネットワーク経由で統合することにより,事前学習したStyleGANの機能を大幅に拡張する新しいフレームワークを提案する。
提案手法は,テキスト固有のトレーニングデータを必要としないテキスト誘導画像操作が可能な,前例のない柔軟性を示す。
論文 参考訳(メタデータ) (2024-11-19T19:36:18Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models [35.732715025002705]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。