論文の概要: I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow
- arxiv url: http://arxiv.org/abs/2410.07536v1
- Date: Tue, 15 Oct 2024 02:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:26:23.082346
- Title: I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow
- Title(参考訳): I-Max: 投射流を伴う予修整流変圧器の分解能の最大化
- Authors: Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao,
- Abstract要約: Rectified Flow Transformer (RFT) は優れたトレーニングと推論の効率を提供する。
テキスト・ツー・イメージ RFT の解像度を最大化する I-Max フレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.55228067778858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rectified Flow Transformers (RFTs) offer superior training and inference efficiency, making them likely the most viable direction for scaling up diffusion models. However, progress in generation resolution has been relatively slow due to data quality and training costs. Tuning-free resolution extrapolation presents an alternative, but current methods often reduce generative stability, limiting practical application. In this paper, we review existing resolution extrapolation methods and introduce the I-Max framework to maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a novel Projected Flow strategy for stable extrapolation and (ii) an advanced inference toolkit for generalizing model knowledge to higher resolutions. Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to enhance stability in resolution extrapolation and show that it can bring image detail emergence and artifact correction, confirming the practical value of tuning-free resolution extrapolation.
- Abstract(参考訳): Rectified Flow Transformer (RFT) は優れたトレーニングと推論効率を提供し、拡散モデルをスケールアップするための最も有効な方向である可能性が高い。
しかし、データ品質とトレーニングコストのため、生成解像度の進歩は比較的遅い。
チューニングフリー分解能外挿法は代替となるが、現在の方法はしばしば生成安定性を低下させ、実用的な応用を制限する。
本稿では,既存の分解能外挿法を概観し,テキスト対画像RFTの分解能を最大化するためのI-Maxフレームワークを提案する。
I-Max の機能
一 安定な外挿のための新規な投射流戦略
(II)モデル知識を高分解能に一般化するための高度な推論ツールキット。
Lumina-Next-2K と Flux.1-dev による実験では、I-Max は分解能外挿の安定性を向上し、画像詳細の創発とアーチファクトの補正を実現し、チューニング不要分解能外挿の実用的価値を確認することができることを示した。
関連論文リスト
- FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - DFU: scale-robust diffusion model for zero-shot super-resolution image
generation [15.689418447376587]
複数の解像度で空間情報とスペクトル情報を組み合わせることでスコア演算子を近似する新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。
本稿では,FIDをFFHQの最大トレーニング解像度の1.66倍の1.66倍の1.3倍の精度で達成し,ゼロショット超解像画像生成能力をさらに高めるための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-30T23:31:33Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。
IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。
スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文 参考訳(メタデータ) (2023-03-29T07:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。