論文の概要: IPGO: Indirect Prompt Gradient Optimization on Text-to-Image Generative Models with High Data Efficiency
- arxiv url: http://arxiv.org/abs/2503.21812v1
- Date: Tue, 25 Mar 2025 18:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 18:44:03.332462
- Title: IPGO: Indirect Prompt Gradient Optimization on Text-to-Image Generative Models with High Data Efficiency
- Title(参考訳): IPGO:高効率テキスト・画像生成モデルにおける間接プロンプト勾配最適化
- Authors: Jianping Ye, Michel Wedel, Kunpeng Zhang,
- Abstract要約: Indirect Prompt Gradient Optimization (IPGO) と呼ばれる新しいフレームワークを導入する。
IPGOは、プロンプト埋め込みの開始と終了で連続的に微分可能なトークンを注入することで、プロンプト埋め込みを強化する。
これは、値、正則性、整合性制約を強制しながら、射出トークンの勾配に基づく最適化を可能にする。
- 参考スコア(独自算出の注目度): 16.559232159385193
- License:
- Abstract: Text-to-Image Diffusion models excel at generating images from text prompts but often lack optimal alignment with content semantics, aesthetics, and human preferences. To address these issues, in this study we introduce a novel framework, Indirect Prompt Gradient Optimization (IPGO), for prompt-level fine-tuning. IPGO enhances prompt embeddings by injecting continuously differentiable tokens at the beginning and end of the prompt embeddings, while exploiting low-rank benefits and flexibility from rotations. It allows for gradient-based optimization of injected tokens while enforcing value, orthonormality, and conformity constraints, facilitating continuous updates and empowering computational efficiency. To evaluate the performance of IPGO, we conduct prompt-wise and prompt-batch training with three reward models targeting image aesthetics, image-text alignment, and human preferences under three datasets of different complexity. The results show that IPGO consistently matches or outperforms cutting-edge benchmarks, including stable diffusion v1.5 with raw prompts, training-based approaches (DRaFT and DDPO), and training-free methods (DPO-Diffusion, Promptist, and ChatGPT-4o). Furthermore, we demonstrate IPGO's effectiveness in enhancing image generation quality while requiring minimal training data and limited computational resources.
- Abstract(参考訳): テキストから画像への拡散モデルは、テキストプロンプトから画像を生成するのに優れるが、コンテンツセマンティクス、美学、人間の好みと最適に一致しないことが多い。
これらの問題に対処するため,本研究では,インダイレクト・プロンプト・グラディエント・最適化(IPGO)という新しいフレームワークを導入する。
IPGOは、プロンプト埋め込みの初めと終わりに連続的に差別化可能なトークンを注入し、ローランクの利点とローテーションからの柔軟性を活用して、プロンプト埋め込みを強化する。
これは、値、正則性、整合性の制約を強制しながら、注入トークンの勾配に基づく最適化を可能にし、継続的な更新を容易にし、計算効率を向上する。
IPGOの性能を評価するために,画像美学,画像テキストアライメント,人間の嗜好を対象とする3つの報酬モデルを用いて,複雑さの異なる3つのデータセットを用いて,迅速かつ迅速なバッチトレーニングを行う。
その結果、IPGOは、安定拡散v1.5と生のプロンプト、トレーニングベースアプローチ(DRaFT、DDPO)、トレーニングフリー手法(DPO-Diffusion、Promptist、ChatGPT-4o)など、最先端のベンチマークに一貫して適合または優れていた。
さらに、最小限のトレーニングデータと限られた計算資源を必要としながら、画像生成品質を向上させるIPGOの有効性を示す。
関連論文リスト
- Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Fast Prompt Alignment for Text-to-Image Generation [28.66112701912297]
本稿では,FPA(Fast Prompt Alignment)を提案する。
FPAは単一命令プロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後最適化されたプロンプトで微調整やテキスト内学習を行う。
FPAは、処理時間のごく一部で競合するテキスト画像アライメントスコアを達成する。
論文 参考訳(メタデータ) (2024-12-11T18:58:41Z) - Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - TIPO: Text to Image with Text Presampling for Prompt Optimization [17.312386194139652]
TIPO(Text-to-Image Prompt Optimization)は、テキスト・トゥ・イメージ(T2I)生成において、自動的なプロンプト改善のための効率的なアプローチを導入する。
シンプルなユーザープロンプトから始めて、TIPOは軽量の事前訓練モデルを利用して、これらのプロンプトをよりリッチで詳細なバージョンに拡張する。
論文 参考訳(メタデータ) (2024-11-12T19:09:45Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。