論文の概要: ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion
- arxiv url: http://arxiv.org/abs/2511.18742v1
- Date: Mon, 24 Nov 2025 04:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.011414
- Title: ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion
- Title(参考訳): ProxT2I: 近距離拡散による効率的な逆ガイド型テキスト画像生成
- Authors: Zhenghan Fang, Jian Zheng, Qiaozi Gao, Xiaofeng Gao, Jeremias Sulam,
- Abstract要約: ProxT2Iと呼ばれる後方離散化に基づくテキスト・トゥ・イメージ(T2I)拡散モデルを開発した。
我々は, LAION-Face-T2I-15Mと呼ばれる, 微細なキャプションを持つ1500万個の高品質な人物画像からなる, 大規模かつオープンソースなデータセットを開発した。
- 参考スコア(独自算出の注目度): 18.25085327318649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as a dominant paradigm for generative modeling across a wide range of domains, including prompt-conditional generation. The vast majority of samplers, however, rely on forward discretization of the reverse diffusion process and use score functions that are learned from data. Such forward and explicit discretizations can be slow and unstable, requiring a large number of sampling steps to produce good-quality samples. In this work we develop a text-to-image (T2I) diffusion model based on backward discretizations, dubbed ProxT2I, relying on learned and conditional proximal operators instead of score functions. We further leverage recent advances in reinforcement learning and policy optimization to optimize our samplers for task-specific rewards. Additionally, we develop a new large-scale and open-source dataset comprising 15 million high-quality human images with fine-grained captions, called LAION-Face-T2I-15M, for training and evaluation. Our approach consistently enhances sampling efficiency and human-preference alignment compared to score-based baselines, and achieves results on par with existing state-of-the-art and open-source text-to-image models while requiring lower compute and smaller model size, offering a lightweight yet performant solution for human text-to-image generation.
- Abstract(参考訳): 拡散モデルは、急激な条件生成を含む幅広い領域にわたる生成モデリングの主要なパラダイムとして現れてきた。
しかし、サンプルの大多数は、逆拡散過程の前方離散化とデータから学習されるスコア関数に頼っている。
このような前方および明示的な離散化は遅く不安定であり、良質なサンプルを生成するために多くのサンプリングステップを必要とする。
本研究では,PxT2Iと呼ばれる後方離散化に基づくテキスト・トゥ・イメージ(T2I)拡散モデルを開発した。
さらに、強化学習と政策最適化の最近の進歩を活用して、タスク固有の報酬のためにサンプルを最適化する。
さらに, LAION-Face-T2I-15Mと呼ばれる微細なキャプションを持つ1500万個の高品質な人物画像からなる, 大規模かつオープンソースなデータセットを開発し, 評価を行った。
提案手法は、スコアベースベースラインと比較してサンプリング効率と人為的なアライメントを一貫して向上させ、従来の最先端およびオープンソーステキスト・ツー・イメージモデルと同等の結果を得るとともに、より少ない計算量と少ないモデルサイズを要求され、人間のテキスト・ツー・イメージ生成のための軽量で高性能なソリューションを提供する。
関連論文リスト
- Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。
提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-10-21T02:19:12Z) - Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection [21.677178476653385]
そこで本研究では,テキストから画像への拡散変換をインコンテキスト機能付きで行うことで,Nのベスト・オブ・Nサンプリングに代わる手法を提案する。
我々は,Reflect-DiTがベースモデルとしてSANA-1.0-1.6Bを用いてGenEvalベンチマーク(+0.19)の性能を向上させることを示す。
GenEvalでは新しい最先端スコア0.81を達成し、1プロンプト当たり20サンプルしか生成せず、以前の最高スコア0.80を上回った。
論文 参考訳(メタデータ) (2025-03-15T21:58:12Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
我々は、推論中に所望のプロパティの出現を促すオンラインプロンプト最適化フレームワークを開発する。
次に、この一般的なプロンプト分布を、マイノリティな特徴の生成を促進する特別な解法へと調整する。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - The Role of Data Curation in Image Captioning [26.61662352061468]
本論文は, サンプルの総数を増やすことなく, データセット中の難しいサンプルを積極的にキュレートすることによって, この方向性に寄与する。
BLIPとBEiT-3モデルを用いたFlickr30KとCOCOデータセットの実験は、これらのキュレーション手法が実際に改善された画像キャプションモデルをもたらすことを示した。
論文 参考訳(メタデータ) (2023-05-05T15:16:07Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。