Fugu-MT 論文翻訳(概要): I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

論文の概要: I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

arxiv url: http://arxiv.org/abs/2410.07536v2
Date: Tue, 15 Oct 2024 02:26:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 16:26:23.079606
Title: I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow
Title（参考訳）: I-Max: 投射流を伴う予修整流変圧器の分解能の最大化
Authors: Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao,
Abstract要約: Rectified Flow Transformer (RFT) は優れたトレーニングと推論の効率を提供する。テキスト・ツー・イメージ RFT の解像度を最大化する I-Max フレームワークを提案する。
参考スコア（独自算出の注目度）: 50.55228067778858
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rectified Flow Transformers (RFTs) offer superior training and inference efficiency, making them likely the most viable direction for scaling up diffusion models. However, progress in generation resolution has been relatively slow due to data quality and training costs. Tuning-free resolution extrapolation presents an alternative, but current methods often reduce generative stability, limiting practical application. In this paper, we review existing resolution extrapolation methods and introduce the I-Max framework to maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a novel Projected Flow strategy for stable extrapolation and (ii) an advanced inference toolkit for generalizing model knowledge to higher resolutions. Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to enhance stability in resolution extrapolation and show that it can bring image detail emergence and artifact correction, confirming the practical value of tuning-free resolution extrapolation.
Abstract（参考訳）: Rectified Flow Transformer (RFT) は優れたトレーニングと推論効率を提供し、拡散モデルをスケールアップするための最も有効な方向である可能性が高い。しかし、データ品質とトレーニングコストのため、生成解像度の進歩は比較的遅い。チューニングフリー分解能外挿法は代替となるが、現在の方法はしばしば生成安定性を低下させ、実用的な応用を制限する。本稿では,既存の分解能外挿法を概観し,テキスト対画像RFTの分解能を最大化するためのI-Maxフレームワークを提案する。 I-Max の機能一安定な外挿のための新規な投射流戦略 (II)モデル知識を高分解能に一般化するための高度な推論ツールキット。 Lumina-Next-2K と Flux.1-dev による実験では、I-Max は分解能外挿の安定性を向上し、画像詳細の創発とアーチファクトの補正を実現し、チューニング不要分解能外挿の実用的価値を確認することができることを示した。

関連論文リスト

Equivariant Sampling for Improving Diffusion Model-based Image Restoration [25.06154860408637]
本稿では,2つのサンプリングトラジェクトリを通じて同変情報を付加するDMIR手法であるEquSを紹介する。 EquSをさらに強化するために、タイムステップ・アウェア・スケジュール(TAS)を提案し、EquS$+$を導入する。本手法は従来の問題に依存しないDMIR法と互換性があり,計算コストを増大させることなく性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-11-13T04:56:53Z)
Straighten Viscous Rectified Flow via Noise Optimization [24.065483360595458]
Reflow操作は、ノイズと画像間の決定論的結合を構築することにより、トレーニング中の補正流れの推論軌跡を的確にすることを目的としている。本稿では,Reflowにおける限界,特に構築された決定論的結合と実画像の分布ギャップに起因する高品質な画像を高速に生成できないことを明らかにする。本稿では,エンコーダとニューラル速度場を組み合わせた共同トレーニングフレームワークであるStraighten Viscous Rectified Flow via Noise Optimization (VRFNO)を提案する。
論文参考訳（メタデータ） (2025-07-14T12:35:17Z)
Self-Cascaded Diffusion Models for Arbitrary-Scale Image Super-Resolution [9.322053509028832]
任意スケール画像超解像のための自己カスケード拡散フレームワークCasArbiを提案する。座標誘導残差拡散モデルにより連続画像表現の学習が可能となる。私たちの実験では、CasArbiは知覚と歪みの両方のパフォーマンス指標において、先行技術よりも優れています。
論文参考訳（メタデータ） (2025-06-09T14:43:21Z)
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance [70.69373563281324]
HiFlowはトレーニング不要でモデルに依存しないフレームワークで、事前トレーニングされたフローモデルの解像度ポテンシャルを解放する。 HiFlowはT2Iモデルの高解像度画像合成の品質を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-08T17:30:40Z)
NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers [11.087309945227826]
画像生成のためのフローベーストランスフォーマーモデルは、より大きなモデルパラメータを持つ最先端のパフォーマンスを達成したが、その推論配置コストは高いままである。生成品質を維持しながら推論性能を向上させるため, プログレッシブ整流トランスを提案する。実験により,本手法は高速収束を実現し,生成品質を確保しつつ,推論時間を短縮することを示した。
論文参考訳（メタデータ） (2025-03-12T10:38:58Z)
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。 FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文参考訳（メタデータ） (2024-10-17T15:51:49Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文参考訳（メタデータ） (2024-02-19T18:59:07Z)
DFU: scale-robust diffusion model for zero-shot super-resolution image generation [15.689418447376587]
複数の解像度で空間情報とスペクトル情報を組み合わせることでスコア演算子を近似する新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。本稿では,FIDをFFHQの最大トレーニング解像度の1.66倍の1.66倍の1.3倍の精度で達成し,ゼロショット超解像画像生成能力をさらに高めるための微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-30T23:31:33Z)
Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文参考訳（メタデータ） (2023-05-11T17:55:25Z)
Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。 IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文参考訳（メタデータ） (2023-03-29T07:02:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。