Fugu-MT 論文翻訳(概要): Improving Progressive Generation with Decomposable Flow Matching

論文の概要: Improving Progressive Generation with Decomposable Flow Matching

arxiv url: http://arxiv.org/abs/2506.19839v1
Date: Tue, 24 Jun 2025 17:58:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.764761
Title: Improving Progressive Generation with Decomposable Flow Matching
Title（参考訳）: 分解可能なフローマッチングによるプログレッシブジェネレーションの改善
Authors: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin,
Abstract要約: Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。 Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
参考スコア（独自算出の注目度）: 50.63174319509629
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating high-dimensional visual modalities is a computationally intensive task. A common solution is progressive generation, where the outputs are synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion models benefit from the coarse-to-fine nature of denoising, explicit multi-stage architectures are rarely adopted. These architectures have increased the complexity of the overall approach, introducing the need for a custom diffusion formulation, decomposition-dependent stage transitions, add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow Matching (DFM), is a simple and effective framework for the progressive generation of visual media. DFM applies Flow Matching independently at each level of a user-defined multi-scale representation (such as Laplacian pyramid). As shown by our experiments, our approach improves visual quality for both images and videos, featuring superior results compared to prior multistage frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores over the base architecture and 26.4% over the best-performing baseline, under the same training compute. When applied to finetuning of large models, such as FLUX, DFM shows faster convergence speed to the training distribution. Crucially, all these advantages are achieved with a single model, architectural simplicity, and minimal modifications to existing training pipelines.
Abstract（参考訳）: 高次元の視覚的モダリティの生成は、計算集約的なタスクである。一般的な解はプログレッシブ生成であり、出力は粗いスペクトル自己回帰的に合成される。拡散モデルは偏微分の粗大な性質から恩恵を受けるが、明示的な多段階アーキテクチャはまれに採用される。これらのアーキテクチャはアプローチ全体の複雑さを増し、独自の拡散定式化、分解依存のステージ遷移、アドホックサンプリング、モデルカスケードの必要性が導入された。我々のコントリビューションであるDecomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。 DFMは、ユーザ定義のマルチスケール表現(ラプラシアピラミッドなど)の各レベルで、フローマッチングを独立して適用する。実験で示されたように,本手法は画像とビデオの両方の視覚的品質を向上し,従来のマルチステージフレームワークと比較して優れた結果が得られた。 Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%、ベースラインより26.4%向上した。 FLUXのような大型モデルの微調整に応用すると、DFMはトレーニング分布への高速収束速度を示す。重要なのは、これらすべてのアドバンテージは、単一のモデル、アーキテクチャの単純さ、既存のトレーニングパイプラインへの最小限の変更によって達成されます。

関連論文リスト

One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文参考訳（メタデータ） (2025-01-02T18:59:40Z)
Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T17:48:09Z)
ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。 ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文参考訳（メタデータ） (2023-11-24T15:20:01Z)
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文参考訳（メタデータ） (2023-10-06T17:11:58Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文参考訳（メタデータ） (2020-04-08T09:07:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。