論文の概要: Employing Discrete Fourier Transform in Representational Learning
- arxiv url: http://arxiv.org/abs/2506.06765v1
- Date: Sat, 07 Jun 2025 11:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.471094
- Title: Employing Discrete Fourier Transform in Representational Learning
- Title(参考訳): 離散フーリエ変換を用いた表現学習
- Authors: Raoof HojatJalali, Edmondo Trentin,
- Abstract要約: 確立されたアプローチは、オートエンコーダを使用して、ネットワークの圧縮点における潜在表現を抽出することである。
入力の離散フーリエ変換(DFT)を用いて、別の学習目標を提案する。
我々は,CIFAR-10の52.8%の精度をResNet-50で達成し,従来のオートエンコーダを12.8ポイント上回る性能で検証した。
- 参考スコア(独自算出の注目度): 0.6629765271909505
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image Representation learning via input reconstruction is a common technique in machine learning for generating representations that can be effectively utilized by arbitrary downstream tasks. A well-established approach is using autoencoders to extract latent representations at the network's compression point. These representations are valuable because they retain essential information necessary for reconstructing the original input from the compressed latent space. In this paper, we propose an alternative learning objective. Instead of using the raw input as the reconstruction target, we employ the Discrete Fourier Transform (DFT) of the input. The DFT provides meaningful global information at each frequency level, making individual frequency components useful as separate learning targets. When dealing with multidimensional input data, the DFT offers remarkable flexibility by enabling selective transformation across specific dimensions while preserving others in the computation. Moreover, certain types of input exhibit distinct patterns in their frequency distributions, where specific frequency components consistently contain most of the magnitude, allowing us to focus on a subset of frequencies rather than the entire spectrum. These characteristics position the DFT as a viable learning objective for representation learning and we validate our approach by achieving 52.8% top-1 accuracy on CIFAR-10 with ResNet-50 and outperforming the traditional autoencoder by 12.8 points under identical architectural configurations. Additionally, we demonstrate that training on only the lower-frequency components - those with the highest magnitudes yields results comparable to using the full frequency spectrum, with only minimal reductions in accuracy.
- Abstract(参考訳): 入力再構成による画像表現学習は、任意の下流タスクによって効果的に活用できる表現を生成する機械学習において一般的な手法である。
確立されたアプローチは、オートエンコーダを使用して、ネットワークの圧縮点における潜在表現を抽出することである。
これらの表現は、圧縮された潜在空間から元の入力を再構築するために必要な情報を保持するため、価値がある。
本稿では,代替学習目標を提案する。
生の入力を再構成ターゲットとして使用する代わりに、入力の離散フーリエ変換(DFT)を用いる。
DFTは各周波数レベルで有意義なグローバル情報を提供し、個別の周波数成分を個別の学習目標として役立てる。
多次元の入力データを扱う場合、DFTは特定の次元をまたいだ選択的変換を可能とし、計算の他の部分を保存することで、顕著な柔軟性を提供する。
さらに、ある種の入力は周波数分布において異なるパターンを示しており、特定の周波数成分が常に大きさのほとんどを包含しているため、スペクトル全体ではなく周波数のサブセットに集中することができる。
これらの特徴は、DFTを表現学習のための実行可能な学習目標として位置づけ、我々は、CIFAR-10においてResNet-50で52.8%のトップ-1精度を達成し、従来のオートエンコーダを12.8ポイント上回ることで、我々のアプローチを検証する。
さらに、低周波成分(最高等級の成分)のみのトレーニングが全周周波数スペクトルに匹敵する結果となり、精度は最小限に抑えられることを示した。
関連論文リスト
- FreqU-FNet: Frequency-Aware U-Net for Imbalanced Medical Image Segmentation [0.0]
FreqU-FNetは周波数領域で動作する新しいU字型セグメンテーションアーキテクチャである。
我々のフレームワークは、低パス畳み込みとDubechiesウェーブレットに基づくダウンサンプリングを利用する周波数を組み込んでいる。
複数の医療セグメンテーションベンチマークの実験では、FreqU-FNetはCNNとTransformerのベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-23T06:51:24Z) - Cross-Frequency Implicit Neural Representation with Self-Evolving Parameters [52.574661274784916]
Inlicit Neural representation (INR) は視覚データ表現の強力なパラダイムとして登場した。
本研究では,データを4つの周波数成分に分離し,ウェーブレット空間でINRを用いるHaar Wavelet変換(CF-INR)を用いた自己進化型クロス周波数INRを提案する。
CF-INRは画像の回帰, 塗装, 装飾, 雲の除去など, 様々な視覚的データ表現および回復タスクで評価される。
論文 参考訳(メタデータ) (2025-04-15T07:14:35Z) - Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection [8.607385112274882]
深層学習は、RGB画像と熱画像(RGB-T画像)を併用したサルエント物体検出(SOD)を大幅に改善した。
既存のディープラーニングベースのRGB-T SODモデルには2つの大きな制限がある。
本稿では,DFENet(Deep Fourier-Embedded Network)という,純粋なフーリエ変換モデルを提案する。
論文 参考訳(メタデータ) (2024-11-27T14:55:16Z) - F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image Deblurring [8.296475046681696]
本稿では、空間周波数の統一表現であるFRFT(Fractional Fourier Transform)に基づく新しい手法を提案する。
提案手法の性能は,他のSOTA手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-03T17:05:12Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - On Transfer Learning of Traditional Frequency and Time Domain Features
in Turning [1.0965065178451106]
我々は従来の信号処理ツールを用いて、回転実験から得られた加速度計信号のチャタを識別する。
タグ付けされた信号は、分類器の訓練に使用される。
その結果、フーリエスペクトルから抽出した特徴は、分類器を訓練し、同じ切断構成からデータをテストする際に最も有益であることがわかった。
論文 参考訳(メタデータ) (2020-08-28T14:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。