論文の概要: RISSOLE: Parameter-efficient Diffusion Models via Block-wise Generation and Retrieval-Guidance
- arxiv url: http://arxiv.org/abs/2408.17095v1
- Date: Fri, 30 Aug 2024 08:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:58:20.782757
- Title: RISSOLE: Parameter-efficient Diffusion Models via Block-wise Generation and Retrieval-Guidance
- Title(参考訳): RISSOLE:ブロックワイズ生成と検索誘導によるパラメータ効率拡散モデル
- Authors: Avideep Mukherjee, Soumya Banerjee, Vinay P. Namboodiri, Piyush Rai,
- Abstract要約: ブロックワイズ生成は、コンパクトサイズの深層生成モデルを設計する上で有望な代替手段となる。
本稿では,ブロックワイズ拡散モデルの学習段階と生成段階を条件付けるために,RAG(Research-augmented Generation)アプローチを提案する。
我々の条件付きスキームは、訓練中に異なるブロックをまたがってコヒーレンスを確保し、その結果、世代間でコヒーレンスを確保する。
- 参考スコア(独自算出の注目度): 34.893261410589396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based models demonstrate impressive generation capabilities. However, they also have a massive number of parameters, resulting in enormous model sizes, thus making them unsuitable for deployment on resource-constraint devices. Block-wise generation can be a promising alternative for designing compact-sized (parameter-efficient) deep generative models since the model can generate one block at a time instead of generating the whole image at once. However, block-wise generation is also considerably challenging because ensuring coherence across generated blocks can be non-trivial. To this end, we design a retrieval-augmented generation (RAG) approach and leverage the corresponding blocks of the images retrieved by the RAG module to condition the training and generation stages of a block-wise denoising diffusion model. Our conditioning schemes ensure coherence across the different blocks during training and, consequently, during generation. While we showcase our approach using the latent diffusion model (LDM) as the base model, it can be used with other variants of denoising diffusion models. We validate the solution of the coherence problem through the proposed approach by reporting substantive experiments to demonstrate our approach's effectiveness in compact model size and excellent generation quality.
- Abstract(参考訳): 拡散ベースのモデルは素晴らしい生成能力を誇示している。
しかし、それらには膨大な数のパラメータがあり、結果としてモデルのサイズが膨大になるため、リソース制約のあるデバイスへのデプロイには適さない。
ブロックワイズ生成は、画像全体を一度に生成するのではなく、一度に1ブロックを生成できるため、コンパクトな(パラメータ効率のよい)深層生成モデルを設計する上で有望な代替となる。
しかし、生成したブロック間のコヒーレンスを確保することは簡単ではないため、ブロックワイズ生成もかなり難しい。
そこで我々は,RAGモジュールによって検索された画像の対応するブロックを利用して,ブロックワイズ拡散モデルのトレーニングおよび生成段階を条件に,検索拡張生成(RAG)アプローチを設計する。
我々の条件付きスキームは、訓練中に異なるブロックをまたがってコヒーレンスを保証し、その結果、世代間でコヒーレンスを保証します。
ベースモデルとして潜在拡散モデル(LDM)を用いて,本手法を実証するが,他のデノナイジング拡散モデルと併用することができる。
本稿では,提案手法によるコヒーレンス問題の解法を検証するために,モデルサイズがコンパクトで生成品質に優れたアプローチの有効性を実証するための実体実験を報告する。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Towards Model-Agnostic Dataset Condensation by Heterogeneous Models [13.170099297210372]
我々は,クロスモデル相互作用により,普遍的に適用可能なコンデンサ画像を生成する新しい手法を開発した。
モデルのコントリビューションのバランスとセマンティックな意味の密接な維持により,本手法は,モデル固有凝縮画像に関連する制約を克服する。
論文 参考訳(メタデータ) (2024-09-22T17:13:07Z) - Inverse design with conditional cascaded diffusion models [0.0]
随伴型設計最適化は通常計算コストが高く、それらのコストは分解能でスケールする。
我々は、条件付きカスケード拡散モデル(cCDM)の提案により、従来の生成モデルよりも拡散モデルの利用を拡大する。
本研究は,cCDMをcGANモデルと転写学習を比較した。
どちらのモデルも高分解能トレーニングデータを減らすことで性能が低下するが、cCDMは訓練データに制限がある場合、伝達学習を伴うcGANモデルよりも優れる。
論文 参考訳(メタデータ) (2024-08-16T04:54:09Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - A Bayesian Non-parametric Approach to Generative Models: Integrating
Variational Autoencoder and Generative Adversarial Networks using Wasserstein
and Maximum Mean Discrepancy [2.966338139852619]
GAN(Generative Adversarial Network)とVAE(VAE)は、最も顕著で広く研究されている生成モデルである。
ベイズ的非パラメトリック(BNP)アプローチを用いて、GANとVAEを融合する。
本稿では,GANの識別能力とVAEの再構成能力とを融合させることにより,多種多様な生成タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-27T08:58:31Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Learning High-Dimensional Distributions with Latent Neural Fokker-Planck
Kernels [67.81799703916563]
低次元潜在空間におけるフォッカー・プランク方程式の解法として問題を定式化する新しい手法を導入する。
提案モデルでは,潜在分散モーフィング,ジェネレータ,パラメータ化Fokker-Planckカーネル関数からなる。
論文 参考訳(メタデータ) (2021-05-10T17:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。