論文の概要: Neural Residual Diffusion Models for Deep Scalable Vision Generation
- arxiv url: http://arxiv.org/abs/2406.13215v1
- Date: Wed, 19 Jun 2024 04:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:09:15.544419
- Title: Neural Residual Diffusion Models for Deep Scalable Vision Generation
- Title(参考訳): ディープ・スケールブル・ビジョン生成のためのニューラルネットワーク残差拡散モデル
- Authors: Zhiyuan Ma, Liangliang Zhao, Biqing Qi, Bowen Zhou,
- Abstract要約: 我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
- 参考スコア(独自算出の注目度): 17.931568104324985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The most advanced diffusion models have recently adopted increasingly deep stacked networks (e.g., U-Net or Transformer) to promote the generative emergence capabilities of vision generation models similar to large language models (LLMs). However, progressively deeper stacked networks will intuitively cause numerical propagation errors and reduce noisy prediction capabilities on generative data, which hinders massively deep scalable training of vision generation models. In this paper, we first uncover the nature that neural networks being able to effectively perform generative denoising lies in the fact that the intrinsic residual unit has consistent dynamic property with the input signal's reverse diffusion process, thus supporting excellent generative abilities. Afterwards, we stand on the shoulders of two common types of deep stacked networks to propose a unified and massively scalable Neural Residual Diffusion Models framework (Neural-RDM for short), which is a simple yet meaningful change to the common architecture of deep generative networks by introducing a series of learnable gated residual parameters that conform to the generative dynamics. Experimental results on various generative tasks show that the proposed neural residual models obtain state-of-the-art scores on image's and video's generative benchmarks. Rigorous theoretical proofs and extensive experiments also demonstrate the advantages of this simple gated residual mechanism consistent with dynamic modeling in improving the fidelity and consistency of generated content and supporting large-scale scalable training. Code is available at https://github.com/Anonymous/Neural-RDM.
- Abstract(参考訳): 最も先進的な拡散モデルでは、大規模言語モデル(LLM)に似た視覚生成モデルの生成能力を促進するために、近年ますます深く積み重ねられたネットワーク(例えば、U-NetやTransformer)が採用されている。
しかし、より深く積み重ねられたネットワークは、直感的に数値伝搬誤差を生じさせ、生成データに対するノイズ予測能力を低下させるため、視覚生成モデルの大規模でスケーラブルなトレーニングを妨げている。
本稿では,入力信号の逆拡散過程と固有残差ユニットが一貫した動的特性を持ち,生成能力に優れたニューラルネットワークを効果的に実行できることを明らかにする。
その後、我々は、2つの共通タイプの深層ネットワークの肩の上に、統合的で大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(略してNeural-RDM)を提案し、これは、生成力学に適合する一連の学習可能なゲート残差パラメータを導入することで、深層ネットワークの共通アーキテクチャに単純かつ意味のある変更である。
様々な生成タスクに関する実験結果から,提案したニューラル残差モデルが画像およびビデオ生成ベンチマークの最先端スコアを得ることが示された。
厳密な理論的証明と広範な実験により、この単純なゲート残留機構の利点は、動的モデリングと一致し、生成されたコンテンツの忠実さと一貫性を改善し、大規模にスケーラブルなトレーニングをサポートすることを証明している。
コードはhttps://github.com/Anonymous/Neural-RDMで入手できる。
関連論文リスト
- Neural Network Parameter Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - DDMI: Domain-Agnostic Latent Diffusion Models for Synthesizing High-Quality Implicit Neural Representations [13.357094648241839]
INRのドメインに依存しない潜在拡散モデルは、ニューラルネットワークの重みの代わりに適応的な位置埋め込みを生成する。
離散データと連続信号関数をシームレスに接続する分割連続空間変分自動エンコーダ(D2C-VAE)を開発した。
例えば、2D画像、3D形状、ニューラルラジアンスフィールド、ビデオの4つのモードにわたる実験では、7つのベンチマークデータセットがDDMIの汎用性を実証している。
論文 参考訳(メタデータ) (2024-01-23T06:21:34Z) - Fully Spiking Denoising Diffusion Implicit Models [61.32076130121347]
スパイキングニューラルネットワーク(SNN)は、超高速のニューロモルフィックデバイス上で走る能力のため、かなりの注目を集めている。
本研究では,SNN内で拡散モデルを構築するために,拡散暗黙モデル (FSDDIM) を完全にスパイクする新しい手法を提案する。
提案手法は,最先端の完全スパイク生成モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-04T09:07:09Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Do We Need an Encoder-Decoder to Model Dynamical Systems on Networks? [18.92828441607381]
埋め込みは観察によく適合するが、同時に誤った動的挙動を持つモデルを誘導することを示す。
2つの加法的ベクトル場成分をパラメトリした単純な埋め込み自由な代替法を提案する。
論文 参考訳(メタデータ) (2023-05-20T12:41:47Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - Stochastic Recurrent Neural Network for Multistep Time Series
Forecasting [0.0]
我々は、時系列予測のための繰り返しニューラルネットワークの適応を提案するために、深部生成モデルと状態空間モデルの概念の進歩を活用する。
私たちのモデルは、すべての関連情報が隠された状態でカプセル化されるリカレントニューラルネットワークのアーキテクチャ的な動作を保ち、この柔軟性により、モデルはシーケンシャルモデリングのために任意のディープアーキテクチャに簡単に統合できます。
論文 参考訳(メタデータ) (2021-04-26T01:43:43Z) - Sobolev training of thermodynamic-informed neural networks for smoothed
elasto-plasticity models with level set hardening [0.0]
本研究では, 可視成分を用いた平滑な弾塑性モデルの学習を目的としたディープラーニングフレームワークを提案する。
収率関数を進化レベル集合として再キャストすることにより、ハミルトン・ヤコビ方程式の解を予測する機械学習手法を導入する。
論文 参考訳(メタデータ) (2020-10-15T22:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。