論文の概要: Improving Text-to-Image Generation with Input-Side Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.12041v2
- Date: Wed, 15 Oct 2025 03:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 13:11:49.474734
- Title: Improving Text-to-Image Generation with Input-Side Inference-Time Scaling
- Title(参考訳): 入力側推論時間スケーリングによるテキスト・画像生成の改善
- Authors: Ruibo Chen, Jiacheng Pan, Heng Huang, Zhenheng Yang,
- Abstract要約: 本稿では,T2Iのバックボーンに入力する前に,大規模言語モデルを用いてユーザ入力を洗練するプロンプト書き換えフレームワークを提案する。
その結果, 画像テキストのアライメント, 視覚的品質, 審美性を一貫して改善し, 高いベースラインを達成できた。
これらの結果は,T2Iシステムを改善する上で,迅速な書き換えは効果的でスケーラブルで実用的なモデルに依存しない戦略であることを示唆している。
- 参考スコア(独自算出の注目度): 47.94598818606364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models often struggle with simple or underspecified prompts, leading to suboptimal image-text alignment, aesthetics, and quality. We propose a prompt rewriting framework that leverages large language models (LLMs) to refine user inputs before feeding them into T2I backbones. Our approach introduces a carefully designed reward system and an iterative direct preference optimization (DPO) training pipeline, enabling the rewriter to enhance prompts without requiring supervised fine-tuning data. We evaluate our method across diverse T2I models and benchmarks. Results show that our prompt rewriter consistently improves image-text alignment, visual quality, and aesthetics, outperforming strong baselines. Furthermore, we demonstrate strong transferability by showing that a prompt rewriter trained on one T2I backbone generalizes effectively to others without needing to be retrained. We also systematically study scalability, evaluating how performance gains scale with the capacity of the large LLM used as the rewriter. These findings highlight that prompt rewriting is an effective, scalable, and practical model-agnostic strategy for improving T2I systems. We plan to release the code and trained prompt rewriters soon.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成の最近の進歩は印象的な成果を上げているが、既存のモデルは単純なプロンプトや不特定なプロンプトに苦しむことが多く、最適な画像テキストアライメント、美学、品質に繋がる。
本稿では,T2Iバックボーンに入力する前に,大規模言語モデル(LLM)を利用してユーザ入力を洗練させるプロンプト書き換えフレームワークを提案する。
提案手法では,厳密に設計された報酬システムと反復的直接選好最適化(DPO)トレーニングパイプラインを導入し,教師付き微調整データを必要としないプロンプトの強化を実現する。
様々なT2Iモデルとベンチマークを用いて,本手法の評価を行った。
その結果, 画像テキストのアライメント, 視覚的品質, 審美性を一貫して改善し, 高いベースラインを達成できた。
さらに、あるT2Iバックボーンで訓練されたプロンプトリライターが、再トレーニングを必要とせず、効果的に他のメンバに一般化できることを示し、強い転送性を示す。
また、スケーラビリティを体系的に研究し、リライタとして使用する大型LLMの容量とともに、パフォーマンスがいかにスケールするかを評価する。
これらの結果は,T2Iシステムを改善する上で,迅速な書き換えは効果的でスケーラブルで実用的なモデルに依存しない戦略であることを示唆している。
コードをリリースし、すぐに即席の書き直しを訓練する予定です。
関連論文リスト
- Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization [50.13408999553116]
テキスト2Vis生成のための最初の強化学習フレームワークであるRL-Text2Visを提案する。
本手法では,テキストの精度,コードの有効性,可視化品質を共同で最適化する新しい多目的報酬を用いている。
その結果,GRPOは可視化生成における構造的マルチモーダル推論の効果的な戦略として確立された。
論文 参考訳(メタデータ) (2026-01-08T04:29:07Z) - RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling [59.088798018184235]
textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。
トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。
RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
論文 参考訳(メタデータ) (2025-10-23T04:45:09Z) - AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。
我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。
我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2025-09-19T16:41:39Z) - PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting [31.35160142315478]
本稿では,テキスト・ツー・イメージ(T2I)モデルのための新規で普遍的なプロンプト書き換えフレームワークであるPromptEnhancerを紹介する。
モデル固有の微調整やイメージ・リワードスコアのような暗黙の報酬信号に依存する従来の手法とは異なり、我々のフレームワークはリライターをジェネレータから切り離す。
Hunyuan Image 2.1モデルの実験では、PromptEnhancerは幅広い意味的および構成的課題において画像テキストアライメントを大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-04T16:46:10Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [61.31036260686349]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文 参考訳(メタデータ) (2025-05-22T15:05:07Z) - ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - TIPO: Text to Image with Text Presampling for Prompt Optimization [17.312386194139652]
TIPO(Text-to-Image Prompt Optimization)は、テキスト・トゥ・イメージ(T2I)生成において、自動的なプロンプト改善のための効率的なアプローチを導入する。
シンプルなユーザープロンプトから始めて、TIPOは軽量の事前訓練モデルを利用して、これらのプロンプトをよりリッチで詳細なバージョンに拡張する。
論文 参考訳(メタデータ) (2024-11-12T19:09:45Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。