論文の概要: Instructing Text-to-Image Diffusion Models via Classifier-Guided Semantic Optimization
- arxiv url: http://arxiv.org/abs/2505.14254v1
- Date: Tue, 20 May 2025 12:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.157916
- Title: Instructing Text-to-Image Diffusion Models via Classifier-Guided Semantic Optimization
- Title(参考訳): 分類器誘導セマンティック最適化によるテキスト・画像拡散モデルの指導
- Authors: Yuanyuan Chang, Yinghua Yao, Tao Qin, Mengmeng Wang, Ivor Tsang, Guang Dai,
- Abstract要約: 本稿では,属性分類器によって導かれるセマンティック埋め込みを最適化し,テキストと画像のモデルを所望の編集に向けて操る手法を提案する。
本手法は,データ領域にまたがる高レベルの絡み合いと強い一般化を実現する。
- 参考スコア(独自算出の注目度): 48.38187112651368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have emerged as powerful tools for high-quality image generation and editing. Many existing approaches rely on text prompts as editing guidance. However, these methods are constrained by the need for manual prompt crafting, which can be time-consuming, introduce irrelevant details, and significantly limit editing performance. In this work, we propose optimizing semantic embeddings guided by attribute classifiers to steer text-to-image models toward desired edits, without relying on text prompts or requiring any training or fine-tuning of the diffusion model. We utilize classifiers to learn precise semantic embeddings at the dataset level. The learned embeddings are theoretically justified as the optimal representation of attribute semantics, enabling disentangled and accurate edits. Experiments further demonstrate that our method achieves high levels of disentanglement and strong generalization across different domains of data.
- Abstract(参考訳): テキストから画像への拡散モデルは、高品質な画像生成と編集のための強力なツールとして登場してきた。
既存の多くのアプローチは、テキストプロンプトを編集ガイダンスとして依存している。
しかし、これらの手法は、時間を要する手作業によるプロンプト作成の必要性、関係のない詳細の導入、編集性能の大幅な制限によって制約されている。
本研究では,属性分類器によって導かれるセマンティック埋め込みを最適化し,テキストのプロンプトに依存したり,拡散モデルの訓練や微調整を必要とせずに,所望の編集に向けてテキスト・画像モデルを操る手法を提案する。
分類器を用いて、データセットレベルで正確なセマンティック埋め込みを学習する。
学習された埋め込みは、理論的には属性セマンティクスの最適表現として正当化され、歪んだ正確な編集を可能にする。
さらに実験により,本手法はデータ領域にまたがる高レベルの絡み合いと強い一般化を実現することを示す。
関連論文リスト
- Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Textual and Visual Prompt Fusion for Image Editing via Step-Wise Alignment [10.82748329166797]
本研究では,生成した視覚的参照とテキストガイダンスを融合したフレームワークを提案する。
私たちのフレームワークは、小さなニューラルネットワークのみを使用して、テキストプロンプトによって直感的に駆動される多様なコンテンツや属性を制御する。
論文 参考訳(メタデータ) (2023-08-30T08:40:15Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。