論文の概要: Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.16853v1
- Date: Fri, 20 Jun 2025 09:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.39837
- Title: Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルの逆非依存的プロンプト最適化
- Authors: Semin Kim, Yeonwoo Cha, Jaehoon Yoo, Seunghoon Hong,
- Abstract要約: RATTPOは,様々な報酬シナリオに適用可能なフレキシブルなテスト時間最適化手法である。
RATTPOは、報酬固有のタスク記述を必要とせずに、大きな言語モデル(LLM)のテキストをクエリすることで、最適化されたプロンプトを検索する。
経験的結果はRATTPOの汎用性を示し、多様な報酬設定のユーザプロンプトを効果的に強化する。
- 参考スコア(独自算出の注目度): 13.428939931403473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a general approach for improving user prompts in text-to-image (T2I) diffusion models by finding prompts that maximize a reward function specified at test-time. Although diverse reward models are used for evaluating image generation, existing automated prompt engineering methods typically target specific reward configurations. Consequently, these specialized designs exhibit suboptimal performance when applied to new prompt engineering scenarios involving different reward models. To address this limitation, we introduce RATTPO (Reward-Agnostic Test-Time Prompt Optimization), a flexible test-time optimization method applicable across various reward scenarios without modification. RATTPO iteratively searches for optimized prompts by querying large language models (LLMs) \textit{without} requiring reward-specific task descriptions. Instead, it uses the optimization trajectory and a novel reward-aware feedback signal (termed a "hint") as context. Empirical results demonstrate the versatility of RATTPO, effectively enhancing user prompts across diverse reward setups that assess various generation aspects, such as aesthetics, general human preference, or spatial relationships between objects. RATTPO surpasses other test-time search baselines in search efficiency, using up to 3.5 times less inference budget, and, given sufficient inference budget, achieves performance comparable to learning-based baselines that require reward-specific fine-tuning. The code is available at https://github.com/seminkim/RATTPO.
- Abstract(参考訳): 本研究では,テキスト・トゥ・イメージ(T2I)拡散モデルにおけるユーザ・プロンプトを改善するための一般的な手法について,テスト時に指定された報酬関数を最大化するプロンプトを見つけることによって検討する。
様々な報酬モデルが画像生成の評価に使用されているが、既存の自動プロンプトエンジニアリング手法は典型的には特定の報酬設定をターゲットにしている。
その結果、これらの特殊設計は、異なる報酬モデルを含む新しいプロンプトエンジニアリングシナリオに適用した場合、最適以下の性能を示す。
この制限に対処するため, RATTPO (Reward-Agnostic Test-Time Prompt Optimization) を導入する。
RATTPOは、報酬固有のタスク記述を必要とする大きな言語モデル (LLMs) \textit{without} をクエリすることで、最適化されたプロンプトを反復的に検索する。
代わりに、最適化軌道と新しい報酬対応フィードバック信号("hint"と呼ばれる)をコンテキストとして使用する。
経験的結果はRATTPOの汎用性を実証し、美学、一般人の嗜好、オブジェクト間の空間的関係など、様々な世代的側面を評価する様々な報酬設定において、ユーザプロンプトを効果的に強化する。
RATTPOは、最大3.5倍の推論予算を使用して、検索効率の他のテストタイム検索ベースラインを超え、十分な推論予算を与えられた場合、報酬固有の微調整を必要とする学習ベースラインに匹敵するパフォーマンスを達成する。
コードはhttps://github.com/seminkim/RATTPOで公開されている。
関連論文リスト
- Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - ORPP: Self-Optimizing Role-playing Prompts to Enhance Language Model Capabilities [64.24517317344959]
複雑なタスクにおいて、大きな言語モデルから優れたパフォーマンスを引き出すためには、高品質なプロンプトが不可欠である。
本稿では,ロールプレイングプロンプトの最適化と生成によりモデル性能を向上させるフレームワークORPPを提案する。
ORPPは一致しただけでなく、ほとんどの場合、性能の点で既存の主流のプロンプト最適化手法を上回ります。
論文 参考訳(メタデータ) (2025-06-03T05:51:35Z) - HERO: Hint-Based Efficient and Reliable Query Optimizer [0.0]
本稿では,より優れた実行計画を実現するためのクエリヒントを提供する,学習クエリ最適化のための新しいモデルを提案する。
このモデルは、学習したヒントベースのクエリ最適化において、信頼できるヒントレコメンデーション、効率的なヒント探索、高速推論という3つの課題に対処する。
私たちのモデルは解釈可能でデバッグが容易です。
論文 参考訳(メタデータ) (2024-12-03T10:58:34Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文 参考訳(メタデータ) (2024-08-14T11:19:28Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。