論文の概要: Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection
- arxiv url: http://arxiv.org/abs/2503.12271v1
- Date: Sat, 15 Mar 2025 21:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:16.238075
- Title: Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection
- Title(参考訳): Reflect-DiT:In-Contextリフレクションによるテキスト・画像拡散変換器の推論時間スケーリング
- Authors: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Arsh Koneru, Yusuke Kato, Kazuki Kozuka, Aditya Grover,
- Abstract要約: そこで本研究では,テキストから画像への拡散変換をインコンテキスト機能付きで行うことで,Nのベスト・オブ・Nサンプリングに代わる手法を提案する。
我々は,Reflect-DiTがベースモデルとしてSANA-1.0-1.6Bを用いてGenEvalベンチマーク(+0.19)の性能を向上させることを示す。
GenEvalでは新しい最先端スコア0.81を達成し、1プロンプト当たり20サンプルしか生成せず、以前の最高スコア0.80を上回った。
- 参考スコア(独自算出の注目度): 21.677178476653385
- License:
- Abstract: The predominant approach to advancing text-to-image generation has been training-time scaling, where larger models are trained on more data using greater computational resources. While effective, this approach is computationally expensive, leading to growing interest in inference-time scaling to improve performance. Currently, inference-time scaling for text-to-image diffusion models is largely limited to best-of-N sampling, where multiple images are generated per prompt and a selection model chooses the best output. Inspired by the recent success of reasoning models like DeepSeek-R1 in the language domain, we introduce an alternative to naive best-of-N sampling by equipping text-to-image Diffusion Transformers with in-context reflection capabilities. We propose Reflect-DiT, a method that enables Diffusion Transformers to refine their generations using in-context examples of previously generated images alongside textual feedback describing necessary improvements. Instead of passively relying on random sampling and hoping for a better result in a future generation, Reflect-DiT explicitly tailors its generations to address specific aspects requiring enhancement. Experimental results demonstrate that Reflect-DiT improves performance on the GenEval benchmark (+0.19) using SANA-1.0-1.6B as a base model. Additionally, it achieves a new state-of-the-art score of 0.81 on GenEval while generating only 20 samples per prompt, surpassing the previous best score of 0.80, which was obtained using a significantly larger model (SANA-1.5-4.8B) with 2048 samples under the best-of-N approach.
- Abstract(参考訳): テキスト・ツー・イメージ生成の進歩における主要なアプローチは、より大きなモデルがより大きな計算資源を使用してより多くのデータでトレーニングされる訓練時間スケーリングである。
効果的ではあるが、このアプローチは計算コストが高く、パフォーマンスを改善するための推論時間スケーリングへの関心が高まっている。
現在、テキストから画像への拡散モデルの推論時間スケーリングは、主にベストオブNサンプリングに限られており、プロンプト毎に複数の画像が生成され、選択モデルがベスト出力を選択する。
近年の言語領域におけるDeepSeek-R1のような推論モデルの成功に触発されて,テキストから画像への拡散変換にコンテキスト内リフレクション機能を持たせることで,Nのサンプリングに最適な方法を導入する。
そこで本稿では,Diffusion Transformerが生成した画像のコンテキスト内例と,必要な改善を記述したテキストフィードバックを用いて,その世代を改良する手法であるReflect-DiTを提案する。
ランダムサンプリングを受動的に頼り、将来の世代でより良い結果を期待する代わりに、Reflect-DiTは、拡張を必要とする特定の側面に対応するために、その世代を明示的に調整する。
実験結果から,Reflect-DiTはベースモデルとしてSANA-1.0-1.6Bを用いてGenEvalベンチマーク(+0.19)の性能を改善した。
さらに、GenEvalの新しい最先端スコアである0.81を達成し、1プロンプト当たり20サンプルしか生成せず、前回の最高スコアである0.80を上回り、2048サンプルをベストオブNアプローチで、より大きなモデル(SANA-1.5-4.8B)を用いて取得した。
関連論文リスト
- SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [50.04304674778762]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略を通じて、SANA-1.5はGenEvalのテキスト計算画像アライメントスコア0.72を達成し、推論スケーリングによりさらに0.80に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models [8.352666876052616]
Diff-Instruct* (DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するための画像データフリーアプローチである。
我々は、人間のフィードバックを用いたオンライン強化学習として、人間の好みのアライメントを定めている。
正規化にKLの発散に依存する従来のRLHFアプローチとは異なり、新しいスコアベース発散正規化を導入する。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models [42.28905346604424]
Deep Reward Tuning (DRTune) はテキストから画像への拡散モデルの最終的な出力画像を監督するアルゴリズムである。
DRTuneは、特に低レベル制御信号において、他のアルゴリズムよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-05-01T15:26:14Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - ReDi: Efficient Learning-Free Diffusion Inference via Trajectory
Retrieval [68.7008281316644]
ReDiは学習不要なRetrievalベースの拡散サンプリングフレームワークである。
ReDi はモデル推論効率を 2 倍高速化することを示した。
論文 参考訳(メタデータ) (2023-02-05T03:01:28Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。