論文の概要: Short-Time Fourier Transform for deblurring Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2401.03166v1
- Date: Sat, 6 Jan 2024 08:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:15:41.300062
- Title: Short-Time Fourier Transform for deblurring Variational Autoencoders
- Title(参考訳): 変分オートエンコーダの短時間フーリエ変換
- Authors: Vibhu Dalal
- Abstract要約: 変分オートエンコーダ(VAE)は強力な生成モデルである。
彼らの生成したサンプルは、代替生成技術の出力と比較して、特徴的な曖昧さに悩まされていることが知られている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Autoencoders (VAEs) are powerful generative models, however their
generated samples are known to suffer from a characteristic blurriness, as
compared to the outputs of alternative generating techniques. Extensive
research efforts have been made to tackle this problem, and several works have
focused on modifying the reconstruction term of the evidence lower bound
(ELBO). In particular, many have experimented with augmenting the
reconstruction loss with losses in the frequency domain. Such loss functions
usually employ the Fourier transform to explicitly penalise the lack of higher
frequency components in the generated samples, which are responsible for sharp
visual features. In this paper, we explore the aspects of previous such
approaches which aren't well understood, and we propose an augmentation to the
reconstruction term in response to them. Our reasoning leads us to use the
short-time Fourier transform and to emphasise on local phase coherence between
the input and output samples. We illustrate the potential of our proposed loss
on the MNIST dataset by providing both qualitative and quantitative results.
- Abstract(参考訳): 変分オートエンコーダ(VAE)は強力な生成モデルであるが、その生成したサンプルは代替生成技術の出力と比較して、特徴的な曖昧さに悩まされていることが知られている。
この問題に取り組むために広範な研究が行われており、いくつかの研究はエビデンスローバウンド(elbo)の再構築用語の変更に焦点を当てている。
特に、多くの人が周波数領域の損失で再建損失を増大させる実験を行った。
このような損失関数は通常、シャープな視覚的特徴の原因となる高周波数成分の欠如を明示するためにフーリエ変換を用いる。
本稿では, 従来よく理解されていなかったアプローチの側面を考察し, その対応として, 再建期への拡張を提案する。
我々の推論は、短時間フーリエ変換を使い、入力と出力のサンプル間の局所位相コヒーレンスを強調している。
定性的および定量的な結果を提供することにより,提案したMNISTデータセットの損失の可能性を示す。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - FFAD: A Novel Metric for Assessing Generated Time Series Data Utilizing
Fourier Transform and Auto-encoder [9.103662085683304]
Fr'echet Inception Distance (FID) は画像合成における生成モデルを評価する標準的な指標である。
本研究は,Fr'echet Fourier-transform Auto-Encoder Distance (FFAD) と呼ばれるフーリエ変換とオートエンコーダを利用した新しい解を提案する。
実験結果から,異なるクラスから標本を効果的に識別するFFADの可能性を示す。
論文 参考訳(メタデータ) (2024-03-11T10:26:04Z) - Diagnostic Spatio-temporal Transformer with Faithful Encoding [54.02712048973161]
本稿では,データ生成プロセスが複合時間(ST)依存性を持つ場合の異常診断の課題について述べる。
我々は、ST依存を時系列分類の副産物として学習する、教師付き依存発見として問題を定式化する。
既存のST変圧器で使用される時間的位置符号化は、高周波数(短時間スケール)の周波数をキャプチャする重大な制限を有することを示す。
また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T05:31:23Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Simpler is better: spectral regularization and up-sampling techniques
for variational autoencoders [1.2234742322758418]
ニューラルネットワークに基づく生成モデルのスペクトル挙動のキャラクタリゼーションは未解決のままである。
最近の研究は、生成的対向ネットワークと、実画像と生成画像の高周波の相違に重点を置いている。
変分オートエンコーダ(VAE)のための単純な2次元フーリエ変換に基づくスペクトル正規化損失を提案する。
論文 参考訳(メタデータ) (2022-01-19T11:49:57Z) - A novel Time-frequency Transformer and its Application in Fault
Diagnosis of Rolling Bearings [0.24214594180459362]
シーケンス処理における標準変換器の膨大な成功に触発された新しい時間周波数変換器(TFT)モデルを提案する。
本稿では,TFTに基づく新しいエンドツーエンドの故障診断フレームワークについて述べる。
論文 参考訳(メタデータ) (2021-04-19T06:53:31Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。