論文の概要: Frequency-Time Diffusion with Neural Cellular Automata
- arxiv url: http://arxiv.org/abs/2401.06291v1
- Date: Thu, 11 Jan 2024 23:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:43:40.810194
- Title: Frequency-Time Diffusion with Neural Cellular Automata
- Title(参考訳): ニューラルセルオートマタを用いた周波数時間拡散
- Authors: John Kalkhof, Arlene K\"uhn, Yannik Frisch, Anirban Mukhopadhyay
- Abstract要約: 拡散モデルのノイズ化は高品質な画像を合成する主要な生成技術となっている。
それらは、特定の制限を課すUNetベースのアーキテクチャによって制約されることが多い。
これらの課題に対処するために,ニューラルセルオートマタ法(NCA)の2つのバリエーションを提案する。
- 参考スコア(独自算出の注目度): 1.1807848705528714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Denoising Diffusion Models (DDMs) have become the leading generative
technique for synthesizing high-quality images but are often constrained by
their UNet-based architectures that impose certain limitations. In particular,
the considerable size of often hundreds of millions of parameters makes them
impractical when hardware resources are limited. However, even with powerful
hardware, processing images in the gigapixel range is difficult. This is
especially true in fields such as microscopy or satellite imaging, where such
challenges arise from the limitation to a predefined generative size and the
inefficient scaling to larger images. We present two variations of Neural
Cellular Automata (NCA)-based DDM methods to address these challenges and
jumpstart NCA-based DDMs: Diff-NCA and FourierDiff-NCA. Diff-NCA performs
diffusion by using only local features of the underlying distribution, making
it suitable for applications where local features are critical. To communicate
global knowledge in image space, naive NCA setups require timesteps that
increase with the image scale. We solve this bottleneck of current NCA
architectures by introducing FourierDiff-NCA, which advances Diff-NCA by adding
a Fourier-based diffusion process and combines the frequency-organized Fourier
space with the image space. By initiating diffusion in the Fourier domain and
finalizing it in the image space, FourierDiff-NCA accelerates global
communication. We validate our techniques by using Diff-NCA (208k parameters)
to generate high-resolution digital pathology scans at 576x576 resolution and
FourierDiff-NCA (887k parameters) to synthesize CelebA images at 64x64,
outperforming VNCA and five times bigger UNet-based DDMs. In addition, we
demonstrate FourierDiff-NCA's capabilities in super-resolution, OOD image
synthesis, and inpainting without additional training.
- Abstract(参考訳): Denoising Diffusion Models (DDM) は高品質な画像を合成する主要な生成技術となっているが、UNetベースのアーキテクチャによって制約されることが多い。
特に、数億のパラメータのかなりのサイズは、ハードウェアリソースが限られている場合に実用的でない。
しかし、強力なハードウェアであっても、ギガピクセル範囲での画像処理は困難である。
これは顕微鏡や衛星画像といった分野において特に当てはまり、そのような課題は予め定義された生成サイズへの制限とより大きな画像への非効率なスケーリングから生じる。
本稿では,これらの課題に対処するニューラルセルオートマタ(NCA)に基づくDDM法と,Diff-NCAとFourierDiff-NCAの2種類のNCAベースのDDM法を提案する。
Diff-NCAは、基礎となる分布の局所的特徴のみを用いることで拡散を行い、局所的特徴が重要となるアプリケーションに適している。
画像空間におけるグローバルな知識を伝えるために、NAAセットアップは画像スケールで増加するタイムステップを必要とする。
本稿では,Fourier-NCAを導入して現在のNAAアーキテクチャのボトルネックを解消し,Fourier-NCAの拡散プロセスを追加し,周波数構成されたFourier空間と画像空間を結合することでDiff-NCAを進展させる。
フーリエ領域で拡散を開始し、画像空間で最終化することにより、フーリエディフNCAはグローバル通信を加速する。
我々は、Diff-NCA(208kパラメータ)を用いて576x576解像度の高解像度デジタル病理スキャンとFourierDiff-NCA(887kパラメータ)を用いて、64x64でCelebA画像を合成し、VNCAと5倍のUNetベースのDDMより優れることを示す。
さらに,FourierDiff-NCAの超高分解能,OOD画像合成,塗装における機能について,追加のトレーニングを伴わずに示す。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - QFF: Quantized Fourier Features for Neural Field Representations [28.82293263445964]
我々は、QFF(Quantized Fourier Features)を用いることで、モデルのサイズが小さくなり、トレーニングが速くなり、複数のアプリケーションの品質が向上することを示した。
QFFは簡単にコーディングでき、高速に計算でき、多くのニューラルネットワーク表現に加えてシンプルなドロップインとして機能する。
論文 参考訳(メタデータ) (2022-12-02T00:11:22Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - LWGNet: Learned Wirtinger Gradients for Fourier Ptychographic Phase
Retrieval [14.588976801396576]
本稿では,フォワードイメージングシステムの知識と深層データ駆動ネットワークを組み合わせたハイブリッドモデル駆動残差ネットワークを提案する。
従来のアンローリング技術とは異なり、LWGNetは従来のディープ・ラーニング・テクニックよりも少ない段数しか使用していない。
この低ビット深度・低コストセンサの性能向上は、FPM撮像装置のコストを大幅に下げる可能性がある。
論文 参考訳(メタデータ) (2022-08-08T17:22:54Z) - Batch Processing and Data Streaming Fourier-based Convolutional Neural
Network Accelerator [4.7257913147626995]
ナビゲーション、トラッキング、リアルタイムマシンアクションシステムなど、多数のアプリケーションにおいて、最小レイテンシの人工ニューラルネットワークによる決定が最重要である。
これにより、機械学習ハードウェアは、高いスループットで多次元データを処理する必要がある。
本稿では,Fourier Convolutional Neural Network(FCNN)アクセラレータを用いた,ニューマンベースではない機械学習アクセラレーションを実演する。
論文 参考訳(メタデータ) (2021-12-23T01:06:17Z) - Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。
本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。
低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文 参考訳(メタデータ) (2021-08-03T12:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。