Fugu-MT 論文翻訳(概要): Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

論文の概要: Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

arxiv url: http://arxiv.org/abs/2403.03206v1
Date: Tue, 5 Mar 2024 18:45:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 13:42:13.693576
Title: Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
Title（参考訳）: 高分解能画像合成のための縮小整流流変圧器
Authors: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas M\"uller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
Abstract要約: 整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 22.11487736315616
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.
Abstract（参考訳）: 拡散モデルは、データの前方経路をノイズに反転させることでノイズからデータを生成し、画像やビデオのような高次元の知覚データのための強力な生成モデリング技術として登場した。整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。その理論的な性質と概念的な単純さにもかかわらず、標準的実践として決定的に確立されていない。本研究では,既設の騒音サンプリング手法を改良し,知覚的関連尺度に偏りを与えることにより,整流流モデルの訓練を行う。大規模研究を通じて,高分解能テキスト対画像合成のための確立された拡散定式化と比較して,この手法の優れた性能を示す。さらに,画像から画像への重み付けを分離し,画像とテキストのトークン間の双方向情報フローを可能にし,テキスト理解,タイポグラフィ,人間の嗜好評価を改善した,テキスト対画像生成のための新しいトランスフォーマアーキテクチャを提案する。このアーキテクチャは、予測可能なスケーリング傾向に従い、検証損失の低減と、様々な指標と人的評価によって測定されたテキストから画像への合成の改善に相関する。我々の最大のモデルは最先端モデルよりも優れており、実験データ、コード、モデルウェイトを公開します。

関連論文リスト

Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。 Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文参考訳（メタデータ） (2025-05-29T16:15:48Z)
Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文参考訳（メタデータ） (2025-05-10T13:53:49Z)
Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling [25.705179111920806]
この研究は、拡散モデルが高品質な表現を自己指導的に学習する上で優れている理由と時期に関する問題に対処する。我々は低次元データモデルと後続推定に基づく数学的枠組みを開発し、画像生成の最終段階に近い生成と表現品質の基本的なトレードオフを明らかにする。これらの知見に基づいて,ノイズレベルをまたいだ特徴を集約するアンサンブル法を提案し,ラベル雑音下でのクリーンな性能とロバスト性の両方を著しく改善する。
論文参考訳（メタデータ） (2025-02-09T01:58:28Z)
Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文参考訳（メタデータ） (2024-11-17T17:45:37Z)
Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。 TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文参考訳（メタデータ） (2024-11-17T09:39:50Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文参考訳（メタデータ） (2024-03-21T17:52:08Z)
Stage-by-stage Wavelet Optimization Refinement Diffusion Model for Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文参考訳（メタデータ） (2023-08-30T10:48:53Z)
Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文参考訳（メタデータ） (2023-05-24T16:33:02Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文参考訳（メタデータ） (2020-01-13T14:39:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。