論文の概要: Stable Diffusion with Continuous-time Neural Network
- arxiv url: http://arxiv.org/abs/2410.19798v1
- Date: Wed, 16 Oct 2024 08:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 07:49:42.521703
- Title: Stable Diffusion with Continuous-time Neural Network
- Title(参考訳): 連続時間ニューラルネットワークによる安定拡散
- Authors: Andras Horvath,
- Abstract要約: 連続的に動作するセルラーニューラルネットワークは、拡散の概念を自然に受け入れている。
一般的に引用されるMNISTデータセットの離散時間と比較すると,高品質な画像の生成と,より高速なトレーニング時間の達成において,パフォーマンス上の優位性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Stable diffusion models have ushered in a new era of advancements in image generation, currently reigning as the state-of-the-art approach, exhibiting unparalleled performance. The process of diffusion, accompanied by denoising through iterative convolutional or transformer network steps, stands at the core of their implementation. Neural networks operating in continuous time naturally embrace the concept of diffusion, this way they could enable more accurate and energy efficient implementation. Within the confines of this paper, my focus delves into an exploration and demonstration of the potential of celllular neural networks in image generation. I will demonstrate their superiority in performance, showcasing their adeptness in producing higher quality images and achieving quicker training times in comparison to their discrete-time counterparts on the commonly cited MNIST dataset.
- Abstract(参考訳): 安定拡散モデルは、現在最先端のアプローチとして支配され、非並列的な性能を示す、画像生成の新しい時代を後押ししてきた。
拡散の過程は、反復的畳み込みまたはトランスフォーマーネットワークのステップを通じて、その実装の核心に立つ。
連続的に動作するニューラルネットワークは、拡散の概念を自然に受け入れ、より正確でエネルギー効率の良い実装を可能にする。
本稿では,画像生成におけるセルラーニューラルネットワークの可能性の探索と実証に焦点をあてる。
一般的に引用されるMNISTデータセットの離散時間と比較すると,高品質な画像の生成と,より高速なトレーニング時間の達成において,パフォーマンス上の優位性を示す。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Edge-preserving noise for diffusion models [4.435514696080208]
本稿では,拡散確率モデル(DDPM)を一般化した新しいエッジ保存拡散モデルを提案する。
特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。
モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:29:52Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文 参考訳(メタデータ) (2024-06-19T04:57:18Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data [55.748186000425996]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Neural Network Parameter Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Fully Spiking Denoising Diffusion Implicit Models [61.32076130121347]
スパイキングニューラルネットワーク(SNN)は、超高速のニューロモルフィックデバイス上で走る能力のため、かなりの注目を集めている。
本研究では,SNN内で拡散モデルを構築するために,拡散暗黙モデル (FSDDIM) を完全にスパイクする新しい手法を提案する。
提案手法は,最先端の完全スパイク生成モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-04T09:07:09Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z) - Analysis of Diffractive Neural Networks for Seeing Through Random
Diffusers [15.017918620413585]
我々は、無作為に未知の位相拡散器を拡散ニューラルネットワークで見ることのできる、コンピュータフリーで全光学イメージング方法を提案する。
異なる相関長のランダムなディフューザを画像化するために設計された様々なディフューザネットワークを解析することにより,ディフューザネットワークの画像再構成忠実度と歪み低減能力とのトレードオフが観察された。
論文 参考訳(メタデータ) (2022-05-01T09:12:24Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。