論文の概要: IPGO: Indirect Prompt Gradient Optimization for Parameter-Efficient Prompt-level Fine-Tuning on Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2503.21812v2
- Date: Fri, 16 May 2025 02:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.660615
- Title: IPGO: Indirect Prompt Gradient Optimization for Parameter-Efficient Prompt-level Fine-Tuning on Text-to-Image Models
- Title(参考訳): IPGO:テキスト・画像モデルを用いたパラメータ効率の良いプロンプトレベルの微調整のための間接プロンプト勾配最適化
- Authors: Jianping Ye, Michel Wedel, Kunpeng Zhang,
- Abstract要約: テキストから画像への拡散モデルは、テキストプロンプトから画像を生成するのに優れているが、コンテンツセマンティクス、美学、人間の嗜好と最適以下の関係を示すことが多い。
本研究では, パラメータ効率のよい新しいフレームワーク, Indirect Prompt Gradient Optimization (IPGO) を提案する。
IPGOは、プロンプト埋め込みの初めと終わりに連続的に微分可能な埋め込みを注入することで、ローランク構造を回転から柔軟性と非線形性で活用することで、プロンプト埋め込みを強化する。
- 参考スコア(独自算出の注目度): 16.559232159385193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image Diffusion models excel at generating images from text prompts but often exhibit suboptimal alignment with content semantics, aesthetics, and human preferences. To address these limitations, this study proposes a novel parameter-efficient framework, Indirect Prompt Gradient Optimization (IPGO), for prompt-level diffusion model fine-tuning. IPGO enhances prompt embeddings by injecting continuously differentiable embeddings at the beginning and end of the prompt embeddings, leveraging low-rank structures with the flexibility and nonlinearity from rotations. This approach enables gradient-based optimization of injected embeddings under range, orthonormality, and conformity constraints, effectively narrowing the search space, promoting a stable solution, and ensuring alignment between the embeddings of the injected embeddings and the original prompt. Its extension IPGO+ adds a parameter-free cross-attention mechanism on the prompt embedding to enforce dependencies between the original prompt and the inserted embeddings. We conduct extensive evaluations through prompt-wise (IPGO) and prompt-batch (IPGO+) training using three reward models of image aesthetics, image-text alignment, and human preferences across three datasets of varying complexity. The results show that IPGO consistently outperforms SOTA benchmarks, including stable diffusion v1.5 with raw prompts, text-embedding-based methods (TextCraftor), training-based methods (DRaFT and DDPO), and training-free methods (DPO-Diffusion, Promptist, and ChatGPT-4o). Specifically, IPGO achieves a win-rate exceeding 99% in prompt-wise learning, and IPGO+ achieves a comparable, but often better performance against current SOTAs (a 75% win rate) in prompt-batch learning. Moreover, we illustrate IPGO's generalizability and its capability to significantly enhance image quality while requiring minimal data and resources.
- Abstract(参考訳): テキストから画像への拡散モデルは、テキストプロンプトから画像を生成するのに優れているが、コンテンツセマンティクス、美学、人間の嗜好と最適以下の関係を示すことが多い。
これらの制約に対処するため,本研究では,パラメータ効率の高い新しいフレームワーク,IPGO(Indirect Prompt Gradient Optimization)を提案する。
IPGOは、プロンプト埋め込みの初めと終わりに連続的に微分可能な埋め込みを注入することで、ローランク構造を回転から柔軟性と非線形性で活用することで、プロンプト埋め込みを強化する。
このアプローチは、範囲、正則性、整合性の制約下での注入埋め込みの勾配に基づく最適化を可能にし、探索空間を効果的に狭め、安定した解を推進し、注入埋め込みの埋め込みと元のプロンプトとの整合性を確保する。
その拡張IPGO+はプロンプト埋め込みにパラメータフリーのクロスアテンション機構を追加し、元のプロンプトと挿入された埋め込みの間の依存関係を強制する。
我々は,画像美学,画像テキストアライメント,人間の嗜好の3つの報奨モデルを用いて,インプロンプトワイズ(IPGO)とインプロンプトバッチ(IPGO+)トレーニングを通じて広範囲な評価を行う。
その結果、IPGOは、生のプロンプトによる安定拡散v1.5、テキスト埋め込みベースのメソッド(TextCraftor)、トレーニングベースメソッド(DRaFTおよびDDPO)、トレーニングフリーメソッド(DPO-Diffusion、Promptist、ChatGPT-4o)など、SOTAベンチマークを一貫して上回っていることがわかった。
具体的には、IPGOは、即時学習において99%以上の勝利率を獲得し、IPGO+は、即時学習において現在のSOTA(75%の勝利率)に対して同等だが、より良いパフォーマンスを達成する。
さらに、IPGOの汎用性と、最小限のデータとリソースを必要としながら、画像品質を大幅に向上する能力について説明する。
関連論文リスト
- PDV: Prompt Directional Vectors for Zero-shot Composed Image Retrieval [37.95145173167645]
Prompt Directional Vector (PDV)は、ユーザプロンプトによって誘導されるセマンティックな修正をキャプチャする、シンプルで効果的なトレーニング不要拡張である。
PDVは,(1) 文字プロンプトから画像特徴へのセマンティックトランスファーによる合成画像埋め込み,(3) 合成テキストと画像埋め込みの重み付き融合,という3つの重要な改善を実現している。
論文 参考訳(メタデータ) (2025-02-11T03:20:21Z) - Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Fast Prompt Alignment for Text-to-Image Generation [28.66112701912297]
本稿では,FPA(Fast Prompt Alignment)を提案する。
FPAは単一命令プロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後最適化されたプロンプトで微調整やテキスト内学習を行う。
FPAは、処理時間のごく一部で競合するテキスト画像アライメントスコアを達成する。
論文 参考訳(メタデータ) (2024-12-11T18:58:41Z) - Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。