論文の概要: SubSpectral Normalization for Neural Audio Data Processing
- arxiv url: http://arxiv.org/abs/2103.13620v1
- Date: Thu, 25 Mar 2021 05:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:30:34.809572
- Title: SubSpectral Normalization for Neural Audio Data Processing
- Title(参考訳): ニューラルオーディオデータ処理のためのサブスペクトル正規化
- Authors: Simyung Chang, Hyoungwoo Park, Janghoon Cho, Hyunsin Park, Sungrack
Yun, Kyuwoong Hwang
- Abstract要約: 入力周波数次元を複数のグループ(サブバンド)に分割し,各グループ毎に異なる正規化を行うサブスペクトル正規化(SSN)を導入する。
本手法は周波数認識特性を学習しながら周波数間偏向を除去する。
音声データを用いた実験では,SSNがネットワークの性能を効率的に向上できることがわかった。
- 参考スコア(独自算出の注目度): 11.97844299450951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks are widely used in various machine learning
domains. In image processing, the features can be obtained by applying 2D
convolution to all spatial dimensions of the input. However, in the audio case,
frequency domain input like Mel-Spectrogram has different and unique
characteristics in the frequency dimension. Thus, there is a need for a method
that allows the 2D convolution layer to handle the frequency dimension
differently. In this work, we introduce SubSpectral Normalization (SSN), which
splits the input frequency dimension into several groups (sub-bands) and
performs a different normalization for each group. SSN also includes an affine
transformation that can be applied to each group. Our method removes the
inter-frequency deflection while the network learns a frequency-aware
characteristic. In the experiments with audio data, we observed that SSN can
efficiently improve the network's performance.
- Abstract(参考訳): 畳み込みニューラルネットワークは様々な機械学習領域で広く使われている。
画像処理では、入力のすべての空間次元に2次元畳み込みを適用することで特徴を得ることができる。
しかし、音声の場合、Mel-Spectrogramのような周波数領域入力は周波数次元の異なるユニークな特性を持つ。
したがって、2次元畳み込み層が周波数次元を異なる方法で扱うことができる方法が必要となる。
本研究では,入力周波数次元を複数のグループ(サブバンド)に分割し,各グループに対して異なる正規化を行うサブスペクトル正規化(SSN)を提案する。
SSNはまた、各群に適用できるアフィン変換を含む。
本手法は周波数認識特性を学習中に周波数間偏向を除去する。
音声データを用いた実験では,SSNがネットワークの性能を効率的に向上できることがわかった。
関連論文リスト
- FINER: Flexible spectral-bias tuning in Implicit NEural Representation
by Variable-periodic Activation Functions [40.80112550091512]
暗黙の神経表現は、信号処理の分野で革命を引き起こしている。
現在のINR技術は、サポートされた周波数セットをチューニングする制限された能力に悩まされている。
本稿では,FINERを提案する可変周期アクティベーション関数を提案する。
本研究では,FINERの2次元画像適合性,3次元符号付き距離場表現,および5次元ニューラル場放射率最適化の文脈における機能を示す。
論文 参考訳(メタデータ) (2023-12-05T02:23:41Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Domain Generalization with Relaxed Instance Frequency-wise Normalization
for Multi-device Acoustic Scene Classification [18.186932959605247]
音声機能におけるドメイン関連情報は、チャネル統計よりも周波数統計において支配的である。
周波数軸に沿ったプラグアンドプレイで明示的な正規化モジュールであるRelaxed Instance Frequency-wise Normalization (RFN)を紹介する。
RFNは、有用な識別情報の望ましくない損失を緩和しつつ、オーディオ機能におけるインスタンス固有のドメインの不一致を解消することができる。
論文 参考訳(メタデータ) (2022-06-24T23:45:50Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - Dense Pruning of Pointwise Convolutions in the Frequency Domain [10.58456555092086]
本研究では,各点層を離散コサイン変換(DCT)でラップする手法を提案する。
スパース演算子に依存する重み打ち法とは異なり、連続周波数帯打ち法は完全な密度計算をもたらす。
提案手法をMobileNetV2に適用することにより,計算時間を22%削減し,精度を1%向上させる。
論文 参考訳(メタデータ) (2021-09-16T04:02:45Z) - Multi-stream Convolutional Neural Network with Frequency Selection for
Robust Speaker Verification [2.3437178262034095]
マルチストリーム畳み込みニューラルネットワーク(CNN)による話者検証のための新しいフレームワークを提案する。
提案フレームワークは,複数のストリームから発生する多様な時間的埋め込みに対応し,音響モデリングの堅牢性を高める。
voxcelebデータセットの広範な実験を行い,マルチストリームcnnが単一ストリームベースラインを大きく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-21T07:23:40Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。