論文の概要: Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.16763v1
- Date: Thu, 22 May 2025 15:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.381599
- Title: Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation
- Title(参考訳): テキスト・画像生成におけるプロンプトの最適化のための自己回帰型大規模視覚言語モデル
- Authors: Hongji Yang, Yucheng Zhou, Wencheng Han, Jianbing Shen,
- Abstract要約: 本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
- 参考スコア(独自算出の注目度): 55.42794740244581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models are powerful for producing high-quality images based on given text prompts, but crafting these prompts often requires specialized vocabulary. To address this, existing methods train rewriting models with supervision from large amounts of manually annotated data and trained aesthetic assessment models. To alleviate the dependence on data scale for model training and the biases introduced by trained models, we propose a novel prompt optimization framework, designed to rephrase a simple user prompt into a sophisticated prompt to a text-to-image model. Specifically, we employ the large vision language models (LVLMs) as the solver to rewrite the user prompt, and concurrently, employ LVLMs as a reward model to score the aesthetics and alignment of the images generated by the optimized prompt. Instead of laborious human feedback, we exploit the prior knowledge of the LVLM to provide rewards, i.e., AI feedback. Simultaneously, the solver and the reward model are unified into one model and iterated in reinforcement learning to achieve self-improvement by giving a solution and judging itself. Results on two popular datasets demonstrate that our method outperforms other strong competitors.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルは、与えられたテキスト・プロンプトに基づいて高品質な画像を生成するのに強力だが、これらのプロンプトを作成するには特別な語彙を必要とすることが多い。
これを解決するために、既存の方法では、大量の手動注釈付きデータと訓練された美的評価モデルから、リライトモデルを指導する。
モデルトレーニングにおけるデータスケールの依存性と,トレーニングモデルが導入するバイアスを軽減するために,簡単なユーザプロンプトをテキスト・ツー・イメージモデルに洗練されたプロンプトに表現する新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
同時に、解法と報奨モデルが1つのモデルに統合され、強化学習において反復され、解法を与え、それ自体を判断することで自己改善が達成される。
2つの一般的なデータセットの結果は、我々の手法が他の強力な競合より優れていることを示している。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image
Synthesis [14.852061933308276]
極めて単純な生記述から高品質なプロンプトを生成するための深層生成モデルである BeautifulPrompt を提案する。
私たちの研究では、まず、高品質で高品質な収集プロンプトペアよりも美しいプロンプトモデルを微調整しました。
さらに、より優れたテキスト・ツー・イメージ生成サービスを提供するために、クラウドネイティブなAIプラットフォームへのBeautifulPromptの統合についても紹介します。
論文 参考訳(メタデータ) (2023-11-12T06:39:00Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。