論文の概要: RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.17540v1
- Date: Fri, 23 May 2025 06:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.877578
- Title: RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
- Title(参考訳): RePrompt: 強化学習によるテキスト・ツー・イメージ生成のためのReasoning-augmented Reprompting
- Authors: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji,
- Abstract要約: RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 88.14234949860105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in text-to-image (T2I) generation, existing models often struggle to faithfully capture user intentions from short and under-specified prompts. While prior work has attempted to enhance prompts using large language models (LLMs), these methods frequently generate stylistic or unrealistic content due to insufficient grounding in visual semantics and real-world composition. Inspired by recent advances in reasoning for language model, we propose RePrompt, a novel reprompting framework that introduces explicit reasoning into the prompt enhancement process via reinforcement learning. Instead of relying on handcrafted rules or stylistic rewrites, our method trains a language model to generate structured, self-reflective prompts by optimizing for image-level outcomes. The tailored reward models assesse the generated images in terms of human preference, semantic alignment, and visual composition, providing indirect supervision to refine prompt generation. Our approach enables end-to-end training without human-annotated data. Experiments on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial layout fidelity and compositional generalization across diverse T2I backbones, establishing new state-of-the-art results.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成の最近の進歩にもかかわらず、既存のモデルは短いプロンプトからユーザーの意図を忠実に捉えるのに苦労することが多い。
以前の研究では、大きな言語モデル(LLM)を使用してプロンプトを強化する試みがあったが、視覚的意味論や実世界の構成が不十分なため、スタイリスティックな内容や非現実的な内容を生成することが多かった。
言語モデル推論の最近の進歩に触発されて,強化学習による促進プロセスに明示的な推論を導入する新しい推論フレームワークであるRePromptを提案する。
本手法では,手作りのルールやスタイリスティックな書き直しに頼る代わりに,画像レベルの結果の最適化により,構造化された自己反射的プロンプトを生成する言語モデルを訓練する。
調整された報酬モデルは、人間の好み、セマンティックアライメント、視覚構成の観点から生成した画像を評価し、即時生成を洗練するための間接的な監督を提供する。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
GenEvalとT2I-Compbenchの実験により、RePromptは様々なT2Iバックボーンの空間的レイアウトの忠実度と組成の一般化を著しく促進し、新しい最先端の結果を確立した。
関連論文リスト
- Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文 参考訳(メタデータ) (2025-05-22T15:05:07Z) - Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training [68.41837295318152]
拡散に基づくテキスト・ツー・イメージモデルでは、多様性と美学の素晴らしい成果が示されているが、視覚的なテキストで画像を生成するのに苦労している。
既存のバックボーンモデルには、ミススペル、テキスト生成の失敗、中国語テキストのサポートの欠如といった制限がある。
本稿では,英語と中国語の視覚テキスト生成にバックボーンモデルを活用するための一連の手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T10:25:39Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。