論文の概要: From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
- arxiv url: http://arxiv.org/abs/2504.16080v1
- Date: Tue, 22 Apr 2025 17:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:09:05.054711
- Title: From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
- Title(参考訳): リフレクションから完璧へ:リフレクションチューニングによるテキスト-画像拡散モデルのスケーリング時間最適化
- Authors: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li,
- Abstract要約: ReflectionFlowは、テキストから画像への拡散モデルを反復的に反映し、出力を洗練できる推論時フレームワークである。
反射レベルのスケーリングを容易にするため、100万個の三重項からなる大規模データセットであるGenRefを構築し、それぞれが反射、欠陥画像、拡張画像を含む。
- 参考スコア(独自算出の注目度): 64.7863715647187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.
- Abstract(参考訳): 最近のテキストと画像の拡散モデルは、トレーニングデータとモデルのパラメータを広範囲にスケーリングすることで、印象的な視覚的品質を達成する。
大規模言語モデルにおいて出現する自己回帰能力に着想を得て,拡散モデルを反復的に反映し,出力を洗練できる推論時フレームワークであるReflectionFlowを提案する。
リフレクションフローは、(1)遅延初期化を最適化するためのノイズレベルスケーリング、(2)正確なセマンティックガイダンスのためのプロンプトレベルスケーリング、(3)リフレクションレベルスケーリングの3つの補完的推論時間スケーリングを導入した。
反射レベルのスケーリングを容易にするため、100万個の三重項からなる大規模データセットであるGenRefを構築し、それぞれが反射、欠陥画像、拡張画像を含む。
このデータセットを活用することで、統一されたフレームワーク内でのマルチモーダル入力を共同でモデル化することにより、最先端拡散変換器FLUX.1-devのリフレクションチューニングを効率的に行うことができる。
実験結果から,ReflectionFlowは難易度の高いスケーリング手法よりも優れており,課題に対して高品質な画像合成を実現するために,スケーラブルで計算効率のよいソリューションを提供することがわかった。
関連論文リスト
- Dereflection Any Image with Diffusion Priors and Diversified Data [86.15504914121226]
本稿では、効率的なデータ準備パイプラインと、頑健な反射除去のための一般化可能なモデルを備えた包括的解を提案する。
まず、ターゲットシーンでランダムに回転する反射媒体によって生成された横反射除去(DRR)というデータセットを紹介する。
第2に、決定論的出力と高速推論のための1ステップ拡散を伴う拡散に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T17:48:14Z) - Utilizing Multi-step Loss for Single Image Reflection Removal [0.9208007322096532]
歪んだイメージは、オブジェクト検出やイメージセグメンテーションといったタスクに悪影響を及ぼす可能性がある。
単一画像を用いた画像反射除去のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-11T17:57:25Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - FIRM: Flexible Interactive Reflection reMoval [75.38207315080624]
本稿では,フレキシブル・インタラクティブ・イメージ・リフレクション・リモーバルのための新しいフレームワークFIRMを提案する。
提案するフレームワークは,従来の対話的手法で必要とされるガイダンス時間の10%しか必要としない。
実世界のリフレクション除去データセットの結果から,提案手法が最先端のリフレクション除去性能を示すことが確認された。
論文 参考訳(メタデータ) (2024-06-03T17:34:37Z) - Zero-Reference Lighting Estimation Diffusion Model for Low-Light Image Enhancement [2.9873893715462185]
ゼロLEDと呼ばれる低照度画像強調のための新しいゼロ参照光推定拡散モデルを提案する。
拡散モデルの安定収束能力を利用して、低照度領域と実常照度領域の間のギャップを埋める。
ゼロ参照学習を通じてペアのトレーニングデータへの依存を緩和する。
論文 参考訳(メタデータ) (2024-03-05T11:39:17Z) - Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and
Cycle Idempotence [76.93002743194974]
本稿では、任意の再スケーリング(アップスケーリングとダウンスケーリングの両方)を統一プロセスとして扱う方法を提案する。
提案モデルでは、アップスケーリングとダウンスケーリングを同時に学習し、双方向の任意のイメージ再スケーリングを実現する。
繰り返しにダウンスケーリング・アップスケーリング・サイクルが適用された場合, 復元精度が著しく低下することなく, サイクルイデオポテンス試験において堅牢であることが確認された。
論文 参考訳(メタデータ) (2022-03-02T07:42:15Z) - ReflectNet -- A Generative Adversarial Method for Single Image
Reflection Suppression [0.6980076213134382]
本稿では,文脈理解モジュールと敵対的学習に基づく単一の画像反射除去手法を提案する。
提案手法は,PSNR と SSIM の観点から,SIR のベンチマークデータセット上で,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-05-11T17:33:40Z) - Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。
RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。
5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文 参考訳(メタデータ) (2020-12-02T03:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。