論文の概要: Reflective Flow Sampling Enhancement
- arxiv url: http://arxiv.org/abs/2603.06165v1
- Date: Fri, 06 Mar 2026 11:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.530326
- Title: Reflective Flow Sampling Enhancement
- Title(参考訳): リフレクティブフローサンプリングの強化
- Authors: Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie,
- Abstract要約: 本研究では,フローモデルに対する理論的に基底的かつトレーニング不要な推論拡張フレームワークとして,反射型フローサンプリング(RF-Sampling)を提案する。
RFサンプリングは、生成品質と迅速なアライメントの両方を一貫して改善する。
また、FLUX上でテスト時間スケーリング能力をある程度発揮できる最初の推論拡張手法でもある。
- 参考スコア(独自算出の注目度): 51.824959905209774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for text-to-image generation has led to rapid advances in generative modeling. Recently, text-to-image diffusion models trained with flow matching algorithms, such as FLUX, have achieved remarkable progress and emerged as strong alternatives to conventional diffusion models. At the same time, inference-time enhancement strategies have been shown to improve the generation quality and text-prompt alignment of text-to-image diffusion models. However, these techniques are mainly applicable to conventional diffusion models and usually fail to perform well on flow models. To bridge this gap, we propose Reflective Flow Sampling (RF-Sampling), a theoretically-grounded and training-free inference enhancement framework explicitly designed for flow models, especially for the CFG-distilled variants (i.e., models distilled from CFG guidance techniques), like FLUX. Departing from heuristic interpretations, we provide a formal derivation proving that RF-Sampling implicitly performs gradient ascent on the text-image alignment score. By leveraging a linear combination of textual representations and integrating them with flow inversion, RF-Sampling allows the model to explore noise spaces that are more consistent with the input prompt. Extensive experiments across multiple benchmarks demonstrate that RF-Sampling consistently improves both generation quality and prompt alignment. Moreover, RF-Sampling is also the first inference enhancement method that can exhibit test-time scaling ability to some extent on FLUX.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションの需要の増加は、生成モデリングの急速な進歩につながっている。
近年、FLUXのようなフローマッチングアルゴリズムで訓練されたテキスト・画像拡散モデルが顕著な進歩を遂げ、従来の拡散モデルに代わる強力な代替手段として登場した。
同時に、テキスト間拡散モデルの生成品質とテキストプロンプトアライメントを改善するために、推論時間拡張戦略が示されている。
しかし、これらの手法は主に従来の拡散モデルに適用でき、通常流れモデルではうまく機能しない。
このギャップを埋めるために,フローモデル,特にCFG蒸留変種(CFG誘導法から蒸留したモデル)のために明示的に設計された理論的かつトレーニング不要な推論拡張フレームワークであるリフレクティブ・フローサンプリング(RF-Sampling)を提案する。
ヒューリスティックな解釈とは別に、RF-Samplingがテキスト画像のアライメントスコアに基づいて勾配上昇を暗黙的に行うことを証明した公式な導出を提供する。
テキスト表現の線形結合を利用してフローインバージョンと統合することにより、RF-Samplingは入力プロンプトとより整合したノイズ空間を探索することができる。
複数のベンチマークにわたる大規模な実験により、RF-Samplingは生成品質と迅速なアライメントの両方を一貫して改善することを示した。
さらに、RF-SamplingはFLUX上でテスト時間スケーリング能力をある程度発揮できる最初の推論拡張手法である。
関連論文リスト
- Fast, faithful and photorealistic diffusion-based image super-resolution with enhanced Flow Map models [8.773008452897791]
FlowMapSRは、効率的な推論のために明示的に設計された画像超解像のための新しい拡散ベースのフレームワークである。
FlowMapSRは、最近のx4およびx8アップスケーリングの最先端手法よりも、再構築忠実度とフォトリアリズムのバランスが良いことを示す。
論文 参考訳(メタデータ) (2026-01-23T11:25:04Z) - Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling [3.558452956820138]
視覚自己回帰モデルの離散的かつ逐次的な性質は、画像生成を効果的に検索できることを示す。
ビームサーチはテキスト・画像生成を大幅に改善し、2Bパラメータ自己回帰モデルがベンチマーク間で12Bパラメータ拡散モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-10-19T08:28:06Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection [28.82743020243849]
既存のテキストと画像の拡散モデルは、しばしば挑戦的なプロンプトに対して高い画質と高いプロンプトのアライメントを維持するのに失敗する。
本稿では, 交互に denoising と inversion を行う拡散自己回帰法を提案する。
我々は,新しい自己反射型拡散サンプリング法であるZigzag Diffusion Smpling (Z-Sampling) を導出した。
論文 参考訳(メタデータ) (2024-12-14T16:42:41Z) - Advancing Diffusion Models: Alias-Free Resampling and Enhanced Rotational Equivariance [0.0]
拡散モデルは、モデルによって引き起こされたアーティファクトと、画像の忠実性に制限された安定性によって、依然として挑戦されている。
拡散モデルのUNetアーキテクチャにエイリアスフリー再サンプリング層を統合することを提案する。
CIFAR-10, MNIST, MNIST-Mなどのベンチマークデータを用いた実験の結果, 画像品質が一貫した向上を示した。
論文 参考訳(メタデータ) (2024-11-14T04:23:28Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。