論文の概要: Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection
- arxiv url: http://arxiv.org/abs/2503.12271v1
- Date: Sat, 15 Mar 2025 21:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.817629
- Title: Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection
- Title(参考訳): Reflect-DiT:In-Contextリフレクションによるテキスト・画像拡散変換器の推論時間スケーリング
- Authors: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Arsh Koneru, Yusuke Kato, Kazuki Kozuka, Aditya Grover,
- Abstract要約: そこで本研究では,テキストから画像への拡散変換をインコンテキスト機能付きで行うことで,Nのベスト・オブ・Nサンプリングに代わる手法を提案する。
我々は,Reflect-DiTがベースモデルとしてSANA-1.0-1.6Bを用いてGenEvalベンチマーク(+0.19)の性能を向上させることを示す。
GenEvalでは新しい最先端スコア0.81を達成し、1プロンプト当たり20サンプルしか生成せず、以前の最高スコア0.80を上回った。
- 参考スコア(独自算出の注目度): 21.677178476653385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The predominant approach to advancing text-to-image generation has been training-time scaling, where larger models are trained on more data using greater computational resources. While effective, this approach is computationally expensive, leading to growing interest in inference-time scaling to improve performance. Currently, inference-time scaling for text-to-image diffusion models is largely limited to best-of-N sampling, where multiple images are generated per prompt and a selection model chooses the best output. Inspired by the recent success of reasoning models like DeepSeek-R1 in the language domain, we introduce an alternative to naive best-of-N sampling by equipping text-to-image Diffusion Transformers with in-context reflection capabilities. We propose Reflect-DiT, a method that enables Diffusion Transformers to refine their generations using in-context examples of previously generated images alongside textual feedback describing necessary improvements. Instead of passively relying on random sampling and hoping for a better result in a future generation, Reflect-DiT explicitly tailors its generations to address specific aspects requiring enhancement. Experimental results demonstrate that Reflect-DiT improves performance on the GenEval benchmark (+0.19) using SANA-1.0-1.6B as a base model. Additionally, it achieves a new state-of-the-art score of 0.81 on GenEval while generating only 20 samples per prompt, surpassing the previous best score of 0.80, which was obtained using a significantly larger model (SANA-1.5-4.8B) with 2048 samples under the best-of-N approach.
- Abstract(参考訳): テキスト・ツー・イメージ生成の進歩における主要なアプローチは、より大きなモデルがより大きな計算資源を使用してより多くのデータでトレーニングされる訓練時間スケーリングである。
効果的ではあるが、このアプローチは計算コストが高く、パフォーマンスを改善するための推論時間スケーリングへの関心が高まっている。
現在、テキストから画像への拡散モデルの推論時間スケーリングは、主にベストオブNサンプリングに限られており、プロンプト毎に複数の画像が生成され、選択モデルがベスト出力を選択する。
近年の言語領域におけるDeepSeek-R1のような推論モデルの成功に触発されて,テキストから画像への拡散変換にコンテキスト内リフレクション機能を持たせることで,Nのサンプリングに最適な方法を導入する。
そこで本稿では,Diffusion Transformerが生成した画像のコンテキスト内例と,必要な改善を記述したテキストフィードバックを用いて,その世代を改良する手法であるReflect-DiTを提案する。
ランダムサンプリングを受動的に頼り、将来の世代でより良い結果を期待する代わりに、Reflect-DiTは、拡張を必要とする特定の側面に対応するために、その世代を明示的に調整する。
実験結果から,Reflect-DiTはベースモデルとしてSANA-1.0-1.6Bを用いてGenEvalベンチマーク(+0.19)の性能を改善した。
さらに、GenEvalの新しい最先端スコアである0.81を達成し、1プロンプト当たり20サンプルしか生成せず、前回の最高スコアである0.80を上回り、2048サンプルをベストオブNアプローチで、より大きなモデル(SANA-1.5-4.8B)を用いて取得した。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning [64.7863715647187]
ReflectionFlowは、テキストから画像への拡散モデルを反復的に反映し、出力を洗練できる推論時フレームワークである。
反射レベルのスケーリングを容易にするため、100万個の三重項からなる大規模データセットであるGenRefを構築し、それぞれが反射、欠陥画像、拡張画像を含む。
論文 参考訳(メタデータ) (2025-04-22T17:58:07Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models [8.352666876052616]
Diff-Instruct* (DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するための画像データフリーアプローチである。
我々は、人間のフィードバックを用いたオンライン強化学習として、人間の好みのアライメントを定めている。
正規化にKLの発散に依存する従来のRLHFアプローチとは異なり、新しいスコアベース発散正規化を導入する。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models [42.28905346604424]
Deep Reward Tuning (DRTune) はテキストから画像への拡散モデルの最終的な出力画像を監督するアルゴリズムである。
DRTuneは、特に低レベル制御信号において、他のアルゴリズムよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-05-01T15:26:14Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。