論文の概要: Evolutionary Token-Level Prompt Optimization for Diffusion Models
- arxiv url: http://arxiv.org/abs/2604.09861v1
- Date: Fri, 10 Apr 2026 19:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.716592
- Title: Evolutionary Token-Level Prompt Optimization for Diffusion Models
- Title(参考訳): 拡散モデルのための進化的トークンレベルプロンプト最適化
- Authors: Domício Pereira Neto, João Correia, Penousal Machado,
- Abstract要約: 本研究は、CLIPに基づく拡散モデルで用いられるトークンベクトルを直接進化させることにより、迅速な最適化のための遺伝的アルゴリズム(GA)の利用について検討する。
提案手法は、プロンプティストやランダムサーチなどのベースライン手法よりも優れており、最大で23.93%の適合性向上を実現している。
- 参考スコア(独自算出の注目度): 1.529342790344802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image diffusion models exhibit strong generative performance but remain highly sensitive to prompt formulation, often requiring extensive manual trial and error to obtain satisfactory results. This motivates the development of automated, model-agnostic prompt optimization methods that can systematically explore the conditioning space beyond conventional text rewriting. This work investigates the use of a Genetic Algorithm (GA) for prompt optimization by directly evolving the token vectors employed by CLIP-based diffusion models. The GA optimizes a fitness function that combines aesthetic quality, measured by the LAION Aesthetic Predictor V2, with prompt-image alignment, assessed via CLIPScore. Experiments on 36 prompts from the Parti Prompts (P2) dataset show that the proposed approach outperforms the baseline methods, including Promptist and random search, achieving up to a 23.93% improvement in fitness. Overall, the method is adaptable to image generation models with tokenized text encoders and provides a modular framework for future extensions, the limitations and prospects of which are discussed.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、強力な生成性能を示すが、迅速な定式化に非常に敏感であり、良好な結果を得るためには、広範囲な手動試験と誤りが必要となることが多い。
これは、従来のテキスト書き換え以上の条件空間を体系的に探索できる自動モデルに依存しないプロンプト最適化手法の開発を動機付けている。
本研究は、CLIPに基づく拡散モデルで用いられるトークンベクトルを直接進化させることにより、迅速な最適化のための遺伝的アルゴリズム(GA)の利用について検討する。
GAは、LAION Aesthetic Predictor V2で測定された美的品質と、CLIPScoreで評価された即席アライメントを組み合わせたフィットネス機能を最適化する。
Parti Prompts (P2)データセットによる36のプロンプトの実験では、提案手法はプロンプティストやランダムサーチなどのベースライン手法よりも優れており、適合度は最大23.93%向上している。
全体として、トークン化テキストエンコーダを用いた画像生成モデルに適用可能であり、将来の拡張のためのモジュラーフレームワークを提供する。
関連論文リスト
- Retrieval, Refinement, and Ranking for Text-to-Video Generation via Prompt Optimization and Test-Time Scaling [1.6671050178877669]
大規模なデータセットは、Text-to-Video(T2V)生成モデルに大きな進歩をもたらした。
ビデオ出力を改善する現在の方法は、しばしば不足する。
RAGベースの新しいプロンプト最適化フレームワークである3Rを導入する。
論文 参考訳(メタデータ) (2026-03-02T06:35:59Z) - Evolutionary Optimization Trumps Adam Optimization on Embedding Space Exploration [1.529342790344802]
我々は,広く採用されている適応モーメント推定(Adam)に対する分離共分散行列適応進化戦略(sep-CMA-ES)の進化的最適化手法の性能について検討した。
提案手法は, 拡散モデルに対して効率よく勾配のない最適化を行い, 微調整を必要とせずに制御性を向上させることを示唆する。
論文 参考訳(メタデータ) (2025-11-05T23:31:54Z) - Dynamic Classifier-Free Diffusion Guidance via Online Feedback [53.54876309092376]
ワンサイズオール"アプローチは、異なるプロンプトの多様な要件に適応できない。
動的CFGスケジューリングのためのフレームワークを提案する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-19T16:27:19Z) - ConceptMix++: Leveling the Playing Field in Text-to-Image Benchmarking via Iterative Prompt Optimization [20.935028961216325]
ConceptMix++は、ビジュアルジェネレーション機能からプロンプトのフレーズをアンタングルするフレームワークである。
最適化されたプロンプトは構成生成性能を大幅に向上することを示す。
これらの結果から,厳密なベンチマーク手法が真のモデル能力を著しく過小評価している可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-04T03:27:04Z) - How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-10T02:09:48Z) - IPGO: Indirect Prompt Gradient Optimization for Parameter-Efficient Prompt-level Fine-Tuning on Text-to-Image Models [16.559232159385193]
テキストから画像への拡散モデルは、テキストプロンプトから画像を生成するのに優れているが、コンテンツセマンティクス、美学、人間の嗜好と最適以下の関係を示すことが多い。
本研究では, パラメータ効率のよい新しいフレームワーク, Indirect Prompt Gradient Optimization (IPGO) を提案する。
IPGOは、プロンプト埋め込みの初めと終わりに連続的に微分可能な埋め込みを注入することで、ローランク構造を回転から柔軟性と非線形性で活用することで、プロンプト埋め込みを強化する。
論文 参考訳(メタデータ) (2025-03-25T18:14:42Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。