論文の概要: Spectral Dictionary Learning for Generative Image Modeling
- arxiv url: http://arxiv.org/abs/2504.17804v1
- Date: Mon, 21 Apr 2025 01:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.50027
- Title: Spectral Dictionary Learning for Generative Image Modeling
- Title(参考訳): 生成画像モデリングのためのスペクトル辞書学習
- Authors: Andrew Kiruluta,
- Abstract要約: 画像合成のためのスペクトル生成モデルを提案する。
画像は、一連の学習スペクトル基底関数の線形結合として再構成される。
提案手法は, 再現性, 知覚的忠実度の観点から, 競争性能の向上を図っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel spectral generative model for image synthesis that departs radically from the common variational, adversarial, and diffusion paradigms. In our approach, images, after being flattened into one-dimensional signals, are reconstructed as linear combinations of a set of learned spectral basis functions, where each basis is explicitly parameterized in terms of frequency, phase, and amplitude. The model jointly learns a global spectral dictionary with time-varying modulations and per-image mixing coefficients that quantify the contributions of each spectral component. Subsequently, a simple probabilistic model is fitted to these mixing coefficients, enabling the deterministic generation of new images by sampling from the latent space. This framework leverages deterministic dictionary learning, offering a highly interpretable and physically meaningful representation compared to methods relying on stochastic inference or adversarial training. Moreover, the incorporation of frequency-domain loss functions, computed via the short-time Fourier transform (STFT), ensures that the synthesized images capture both global structure and fine-grained spectral details, such as texture and edge information. Experimental evaluations on the CIFAR-10 benchmark demonstrate that our approach not only achieves competitive performance in terms of reconstruction quality and perceptual fidelity but also offers improved training stability and computational efficiency. This new type of generative model opens up promising avenues for controlled synthesis, as the learned spectral dictionary affords a direct handle on the intrinsic frequency content of the images, thus providing enhanced interpretability and potential for novel applications in image manipulation and analysis.
- Abstract(参考訳): 本稿では,画像合成のためのスペクトル生成モデルを提案する。
提案手法では, 1次元信号に平坦化した画像は, 周波数, 位相, 振幅で各基底が明示的にパラメータ化される一連のスペクトル基底関数の線形結合として再構成される。
モデルは、時間変化の変調と各スペクトル成分の寄与を定量化する画像毎の混合係数を持つ大域的スペクトル辞書を共同で学習する。
その後、これらの混合係数に単純な確率モデルが適用され、潜在空間からサンプリングすることで、新しい画像が決定論的に生成される。
このフレームワークは決定論的辞書学習を利用しており、確率的推論や敵対的訓練に依存する手法と比較して、高度に解釈可能で物理的に意味のある表現を提供する。
さらに、短時間フーリエ変換(STFT)によって計算される周波数領域損失関数の組込みにより、合成された画像は、大域構造とテクスチャやエッジ情報などの微細なスペクトルの詳細の両方をキャプチャする。
CIFAR-10ベンチマークによる評価の結果,提案手法は再現性や知覚的忠実度の観点からの競争性能を向上するだけでなく,トレーニングの安定性や計算効率の向上も実現している。
この新たな生成モデルは、学習されたスペクトル辞書が、画像の固有の周波数内容を直接扱うことができるため、制御された合成のための有望な道を開く。
関連論文リスト
- A Hybrid Wavelet-Fourier Method for Next-Generation Conditional Diffusion Models [0.0]
本稿では、拡散パラダイムをハイブリッド周波数表現に適応させる新しい生成モデリングフレームワーク、Wavelet-Fourier-Diffusionを提案する。
ハイブリッド周波数に基づく表現は,大域的コヒーレンスと微妙なテクスチャ合成の制御をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-04-04T17:11:04Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Spectrum Translation for Refinement of Image Generation (STIG) Based on
Contrastive Learning and Spectral Filter Profile [15.5188527312094]
生成した画像の周波数領域における相違を緩和する枠組みを提案する。
これは、コントラスト学習に基づく画像生成(STIG)の洗練のためのスペクトル変換によって実現される。
我々は,STIGの有効性を実証するために,8つのフェイク画像データセットと様々な最先端モデルにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-03-08T06:39:24Z) - DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral
Diffusion Model [18.25548360119976]
マルチスペクトル画像(MSI)におけるスナップショット圧縮画像(SCI)再構成の精度向上を目指した。
DiffSCIと呼ばれる新しいゼロショット拡散モデルを提案する。
我々は,DiffSCIが自己監督的,ゼロショット的アプローチよりも顕著な性能向上を示すことを示すため,広範囲な試験を行った。
論文 参考訳(メタデータ) (2023-11-19T20:27:14Z) - Reconstruction of compressed spectral imaging based on global structure
and spectral correlation [17.35611893815407]
提案手法は、畳み込みカーネルを用いてグローバルイメージを操作する。
畳み込みスパース符号化が低周波数に不感な問題を解決するため、大域的全変量(TV)制約を加算する。
提案手法は,PSNRで最大7dB,SSIMで最大10%向上する。
論文 参考訳(メタデータ) (2022-10-27T14:31:02Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Regularization by Denoising Sub-sampled Newton Method for Spectral CT
Multi-Material Decomposition [78.37855832568569]
スペクトルctを用いたマルチマテリアル画像再構成のためのモデルベース最大後課題の解決法を提案する。
特に,プラグイン画像復号化機能に基づく正規化最適化問題について提案する。
スペクトルct材料分解の数値的および実験的結果を示す。
論文 参考訳(メタデータ) (2021-03-25T15:20:10Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Kullback-Leibler Divergence-Based Fuzzy $C$-Means Clustering
Incorporating Morphological Reconstruction and Wavelet Frames for Image
Segmentation [152.609322951917]
そこで我々は,厳密なウェーブレットフレーム変換と形態的再構成操作を組み込むことで,Kulback-Leibler (KL) 発散に基づくFuzzy C-Means (FCM) アルゴリズムを考案した。
提案アルゴリズムはよく機能し、他の比較アルゴリズムよりもセグメンテーション性能が優れている。
論文 参考訳(メタデータ) (2020-02-21T05:19:10Z) - Residual-Sparse Fuzzy $C$-Means Clustering Incorporating Morphological
Reconstruction and Wavelet frames [146.63177174491082]
Fuzzy $C$-Means (FCM)アルゴリズムは、形態的再構成操作とタイトウェーブレットフレーム変換を組み込んでいる。
特徴集合とその理想値の間の残差に対して$ell_0$正規化項を付与することにより、改良されたFCMアルゴリズムを提案する。
合成, 医用, カラー画像に対する実験結果から, 提案アルゴリズムは効率的かつ効率的であり, 他のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-14T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。