論文の概要: Flow Matching in Latent Space
- arxiv url: http://arxiv.org/abs/2307.08698v1
- Date: Mon, 17 Jul 2023 17:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 11:47:30.548197
- Title: Flow Matching in Latent Space
- Title(参考訳): 潜在空間における流れマッチング
- Authors: Quan Dao, Hao Phung, Binh Nguyen, Anh Tran
- Abstract要約: フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。
本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。
我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
- 参考スコア(独自算出の注目度): 2.9330609943398525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow matching is a recent framework to train generative models that exhibits
impressive empirical performance while being relatively easier to train
compared with diffusion-based models. Despite its advantageous properties,
prior methods still face the challenges of expensive computing and a large
number of function evaluations of off-the-shelf solvers in the pixel space.
Furthermore, although latent-based generative methods have shown great success
in recent years, this particular model type remains underexplored in this area.
In this work, we propose to apply flow matching in the latent spaces of
pretrained autoencoders, which offers improved computational efficiency and
scalability for high-resolution image synthesis. This enables flow-matching
training on constrained computational resources while maintaining their quality
and flexibility. Additionally, our work stands as a pioneering contribution in
the integration of various conditions into flow matching for conditional
generation tasks, including label-conditioned image generation, image
inpainting, and semantic-to-image generation. Through extensive experiments,
our approach demonstrates its effectiveness in both quantitative and
qualitative results on various datasets, such as CelebA-HQ, FFHQ, LSUN Church &
Bedroom, and ImageNet. We also provide a theoretical control of the
Wasserstein-2 distance between the reconstructed latent flow distribution and
true data distribution, showing it is upper-bounded by the latent flow matching
objective. Our code will be available at
https://github.com/VinAIResearch/LFM.git.
- Abstract(参考訳): フローマッチングは、拡散モデルと比較して比較的訓練が容易でありながら、印象的な経験的性能を示す生成モデルを訓練する最近のフレームワークである。
その利点にもかかわらず、先行手法は高価な計算の課題に直面し、画素空間におけるオフザシェルフソルバの多くの機能評価を行う。
さらに, 近年, 潜伏型生成法は大きな成功を収めているが, このモデルタイプはいまだ発見されていない。
本研究では,事前訓練されたオートエンコーダの潜時空間にフローマッチングを適用し,高分解能画像合成のための計算効率とスケーラビリティを向上させることを提案する。
これにより、品質と柔軟性を維持しながら、制約のある計算リソースでのフローマッチングトレーニングが可能になる。
さらに,我々の研究は,ラベル条件付き画像生成,画像インパインティング,セマンティック・ツー・イメージ生成など条件付き生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
大規模な実験を通じて,CelebA-HQ,FFHQ,LSUN Church & Bedroom,ImageNetなど,さまざまなデータセットにおける定量的および定性的な結果の有効性を示す。
また,再建した潜流分布と真のデータ分布とのワッサースタイン2距離を理論的に制御し,潜流マッチングの目的によって上界となることを示す。
私たちのコードはhttps://github.com/VinAIResearch/LFM.gitで公開されます。
関連論文リスト
- DeFoG: Discrete Flow Matching for Graph Generation [45.037260759871124]
グラフ生成のための離散フローマッチングを用いた新しいフレームワークであるDeFoGを提案する。
DeFoGはフローベースのアプローチを採用しており、効率的な線形雑音化プロセスと柔軟な雑音化プロセスを備えている。
我々は,DeFoGが合成および分子データセット上で最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2024-10-05T18:52:54Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。
提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文 参考訳(メタデータ) (2024-06-02T06:36:46Z) - Bellman Optimal Stepsize Straightening of Flow-Matching Models [14.920260435839992]
本稿では,フローマッチング生成モデルを蒸留するためのBellman Optimal Stepsize Straightening (BOSS)技術を紹介する。
BOSSは特に、計算予算の制約に固執しながら、数ステップの効率的な画像サンプリングを目的としている。
以上の結果から,BOSSは競争力のあるサンプル品質を維持しつつ,効率の大幅な向上を実現していることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-27T05:20:20Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - NeurInt : Learning to Interpolate through Neural ODEs [18.104328632453676]
本稿では,2つの画像間の軌跡分布を学習する新しい生成モデルを提案する。
提案手法の有効性を示すとともに,画像の品質向上と,実画像と対象画像の任意のペアに対して,スムーズな軌道上の多様な分布を学習する能力を示す。
論文 参考訳(メタデータ) (2021-11-07T16:31:18Z) - DeFlow: Learning Complex Image Degradations from Unpaired Data with
Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。
共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。
共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文 参考訳(メタデータ) (2021-01-14T18:58:01Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。