論文の概要: Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification
- arxiv url: http://arxiv.org/abs/2508.21243v1
- Date: Thu, 28 Aug 2025 22:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.88807
- Title: Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification
- Title(参考訳): 音声分類のためのフル周波数時空間パッチングと構造化マスキング
- Authors: Aditya Makineni, Baocheng Geng, Qing Tian,
- Abstract要約: 本稿では,全周波数帯域に局所的な時間的コンテキストを分散させることにより,スペクトルの時間-周波数非対称性をよりよく一致させるパッチ方式を提案する。
また、固定マスク予算の下で、フル周波数マスクとローカライズされた時間周波数マスクを組み合わせたパッチアライン・スペクトログラム拡張であるSpecMaskを導入する。
- 参考スコア(独自算出の注目度): 3.588372242361407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers and State-Space Models (SSMs) have advanced audio classification by modeling spectrograms as sequences of patches. However, existing models such as the Audio Spectrogram Transformer (AST) and Audio Mamba (AuM) adopt square patching from computer vision, which disrupts continuous frequency patterns and produces an excessive number of patches, slowing training, and increasing computation. We propose Full-Frequency Temporal Patching (FFTP), a patching strategy that better matches the time-frequency asymmetry of spectrograms by spanning full frequency bands with localized temporal context, preserving harmonic structure, and significantly reducing patch count and computation. We also introduce SpecMask, a patch-aligned spectrogram augmentation that combines full-frequency and localized time-frequency masks under a fixed masking budget, enhancing temporal robustness while preserving spectral continuity. When applied on both AST and AuM, our patching method with SpecMask improves mAP by up to +6.76 on AudioSet-18k and accuracy by up to +8.46 on SpeechCommandsV2, while reducing computation by up to 83.26%, demonstrating both performance and efficiency gains.
- Abstract(参考訳): 変換器と状態空間モデル(SSM)は、スペクトルをパッチのシーケンスとしてモデル化することで、高度なオーディオ分類を行う。
しかしながら、Audio Spectrogram Transformer (AST) や Audio Mamba (AuM) のような既存のモデルは、連続周波数パターンを乱し、過剰な数のパッチを生成し、トレーニングを遅くし、計算量を増やすコンピュータビジョンから正方形パッチを採用する。
フル周波数時空間パッチング(FFTP, Full-Frequency Temporal Patching)は、フル周波数帯域を局所的時間的コンテキストに分散させ、ハーモニック構造を保ち、パッチ数と計算を著しく削減することで、スペクトルの時間-周波数非対称性によく適合するパッチ戦略である。
また、固定マスク予算の下で、フル周波数マスクとローカライズされた時間マスクを組み合わせて、スペクトル連続性を保ちながら時間的堅牢性を向上するパッチアラインな分光器であるSpecMaskを導入する。
ASTとAuMの両方に適用すると、SpecMaskによるパッチ手法は、AudioSet-18kで最大5.76倍、SpeechCommandsV2で最大8.46倍、計算を最大83.26%削減し、性能と効率の向上を実証する。
関連論文リスト
- Dual-Domain Masked Image Modeling: A Self-Supervised Pretraining Strategy Using Spatial and Frequency Domain Masking for Hyperspectral Data [35.34526230299484]
本稿では,ラベルなしデータの大部分を利用するハイパースペクトルデータに対する自己教師付き事前学習戦略を提案する。
本稿では,空間領域と周波数領域の両方で動作する新しい二重ドメインマスキング機構を提案する。
提案手法を3つの公開HSI分類ベンチマークで評価し,現状の性能を実証した。
論文 参考訳(メタデータ) (2025-05-06T06:24:21Z) - Multi-View Spectrogram Transformer for Respiratory Sound Classification [32.346046623638394]
視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。
ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-11-16T08:17:02Z) - Multiscale Audio Spectrogram Transformer for Efficient Audio
Classification [1.797470734877199]
階層型表現学習を用いたマルチスケール音声スペクトログラム変換器(MAST)を開発した。
具体的には、MASTは時間(および周波数領域)に沿って1次元(および2次元)プーリング演算子を使用し、トークンの数を徐々に減少させ、特徴次元を増大させる。
論文 参考訳(メタデータ) (2023-03-19T20:21:29Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。