論文の概要: On Frequency-Wise Normalizations for Better Recording Device
Generalization in Audio Spectrogram Transformers
- arxiv url: http://arxiv.org/abs/2306.11764v1
- Date: Tue, 20 Jun 2023 09:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 16:24:48.990607
- Title: On Frequency-Wise Normalizations for Better Recording Device
Generalization in Audio Spectrogram Transformers
- Title(参考訳): オーディオスペクトログラムトランスフォーマにおける記録デバイス一般化のための周波数方向正規化について
- Authors: Paul Primus and, Gerhard Widmer
- Abstract要約: トレーニング時に見るデータとアプリケーション時に見るデータの間の空白条件は、マシンラーニングにとって大きな課題である。
本研究では,アコースティックシーン分類(ASC)とミスマッチ記録装置を用いて,この問題を考察する。
そこで本研究では,未確認記録装置のASC性能を最大18.2ポイント向上する周波数中心動作を提案する。
- 参考スコア(独自算出の注目度): 6.617487928813374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Varying conditions between the data seen at training and at application time
remain a major challenge for machine learning. We study this problem in the
context of Acoustic Scene Classification (ASC) with mismatching recording
devices. Previous works successfully employed frequency-wise normalization of
inputs and hidden layer activations in convolutional neural networks to reduce
the recording device discrepancy. The main objective of this work was to adopt
frequency-wise normalization for Audio Spectrogram Transformers (ASTs), which
have recently become the dominant model architecture in ASC. To this end, we
first investigate how recording device characteristics are encoded in the
hidden layer activations of ASTs. We find that recording device information is
initially encoded in the frequency dimension; however, after the first
self-attention block, it is largely transformed into the token dimension. Based
on this observation, we conjecture that suppressing recording device
characteristics in the input spectrogram is the most effective. We propose a
frequency-centering operation for spectrograms that improves the ASC
performance on unseen recording devices on average by up to 18.2 percentage
points.
- Abstract(参考訳): トレーニング時に見るデータとアプリケーション時に見るデータの間の差異は、マシンラーニングにとって大きな課題である。
本研究では,アコースティックシーン分類(ASC)とミスマッチ記録装置を用いてこの問題を考察する。
従来の研究は、記録装置の誤差を低減するために、畳み込みニューラルネットワークにおける入力の周波数ワイドな正規化と隠蔽層アクティベーションをうまく利用した。
この研究の主な目的は、最近ascの主要なモデルアーキテクチャとなったオーディオスペクトログラムトランスフォーマ(asts)に周波数方向の正規化を適用することだった。
そこで本研究ではまず,astの隠れ層活性化において記録デバイス特性がどのようにエンコードされるかを検討する。
記録装置の情報は当初周波数次元で符号化されるが、第1の自己照準ブロックの後、トークン次元に大まかに変換される。
この観測から,入力スペクトログラムにおける記録装置特性の抑制が最も効果的であると推測した。
本研究では,非検出記録装置のasc性能を平均18.2ポイント向上させるスペクトログラムの周波数中心演算を提案する。
関連論文リスト
- Frequency-regularized Neural Representation Method for Sparse-view Tomographic Reconstruction [8.45338755060592]
自己教師付きスパース・ビュー・トモグラフィ再構成のための正規化ニューラル減衰/活性場(Freq-NAF)を提案する。
Freq-NAFは、ニューラルネットワーク入力の可視周波数帯域を直接制御して、周波数正規化による過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-09-22T11:19:38Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Device-Robust Acoustic Scene Classification via Impulse Response
Augmentation [5.887969742827488]
CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果について検討する。
その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様に動作することがわかった。
また、DIR増幅とFreq-MixStyleは相補的であり、トレーニング中に見えないデバイスによって記録された信号に対して、新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-12T14:12:56Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。
我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。
MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文 参考訳(メタデータ) (2022-03-30T22:06:13Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - High Performance Sequence-to-Sequence Model for Streaming Speech
Recognition [19.488757267198498]
標準的な音声認識タスクにおいて、シーケンス・ツー・シーケンスのモデルが最先端のパフォーマンスを達成するようになった。
しかし、音声データの入力ストリーム上でランオン認識を行う場合、これらのモデルはいくつかの課題に直面している。
注意機構の不確実性を制御する追加の損失関数、部分的、安定な仮説を識別するビーム探索、エンコーダにおけるBLSTMの動作方法、チャンクされたBLSTMの使用を提案する。
論文 参考訳(メタデータ) (2020-03-22T23:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。