論文の概要: Improving Text-to-Image Generation with Input-Side Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.12041v1
- Date: Tue, 14 Oct 2025 00:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.130847
- Title: Improving Text-to-Image Generation with Input-Side Inference-Time Scaling
- Title(参考訳): 入力側推論時間スケーリングによるテキスト・画像生成の改善
- Authors: Ruibo Chen, Jiacheng Pan, Heng Huang, Zhenheng Yang,
- Abstract要約: 本稿では,T2Iのバックボーンに入力する前に,大規模言語モデルを用いてユーザ入力を洗練するプロンプト書き換えフレームワークを提案する。
その結果, 画像テキストのアライメント, 視覚的品質, 審美性を一貫して改善し, 高いベースラインを達成できた。
これらの結果は,T2Iシステムを改善する上で,迅速な書き換えは効果的でスケーラブルで実用的なモデルに依存しない戦略であることを示唆している。
- 参考スコア(独自算出の注目度): 47.94598818606364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models often struggle with simple or underspecified prompts, leading to suboptimal image-text alignment, aesthetics, and quality. We propose a prompt rewriting framework that leverages large language models (LLMs) to refine user inputs before feeding them into T2I backbones. Our approach introduces a carefully designed reward system and an iterative direct preference optimization (DPO) training pipeline, enabling the rewriter to enhance prompts without requiring supervised fine-tuning data. We evaluate our method across diverse T2I models and benchmarks. Results show that our prompt rewriter consistently improves image-text alignment, visual quality, and aesthetics, outperforming strong baselines. Furthermore, we demonstrate strong transferability by showing that a prompt rewriter trained on one T2I backbone generalizes effectively to others without needing to be retrained. We also systematically study scalability, evaluating how performance gains scale with the capacity of the large LLM used as the rewriter. These findings highlight that prompt rewriting is an effective, scalable, and practical model-agnostic strategy for improving T2I systems. We plan to release the code and trained prompt rewriters soon.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成の最近の進歩は印象的な成果を上げているが、既存のモデルは単純なプロンプトや不特定なプロンプトに苦しむことが多く、最適な画像テキストアライメント、美学、品質に繋がる。
本稿では,T2Iバックボーンに入力する前に,大規模言語モデル(LLM)を利用してユーザ入力を洗練させるプロンプト書き換えフレームワークを提案する。
提案手法では,厳密に設計された報酬システムと反復的直接選好最適化(DPO)トレーニングパイプラインを導入し,教師付き微調整データを必要としないプロンプトの強化を実現する。
様々なT2Iモデルとベンチマークを用いて,本手法の評価を行った。
その結果, 画像テキストのアライメント, 視覚的品質, 審美性を一貫して改善し, 高いベースラインを達成できた。
さらに、あるT2Iバックボーンで訓練されたプロンプトリライターが、再トレーニングを必要とせず、効果的に他のメンバに一般化できることを示し、強い転送性を示す。
また、スケーラビリティを体系的に研究し、リライタとして使用する大型LLMの容量とともに、パフォーマンスがいかにスケールするかを評価する。
これらの結果は,T2Iシステムを改善する上で,迅速な書き換えは効果的でスケーラブルで実用的なモデルに依存しない戦略であることを示唆している。
コードをリリースし、すぐに即席の書き直しを訓練する予定です。
関連論文リスト
- AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。
我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。
我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2025-09-19T16:41:39Z) - PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting [31.35160142315478]
本稿では,テキスト・ツー・イメージ(T2I)モデルのための新規で普遍的なプロンプト書き換えフレームワークであるPromptEnhancerを紹介する。
モデル固有の微調整やイメージ・リワードスコアのような暗黙の報酬信号に依存する従来の手法とは異なり、我々のフレームワークはリライターをジェネレータから切り離す。
Hunyuan Image 2.1モデルの実験では、PromptEnhancerは幅広い意味的および構成的課題において画像テキストアライメントを大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-04T16:46:10Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [61.31036260686349]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文 参考訳(メタデータ) (2025-05-22T15:05:07Z) - ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。