論文の概要: An overview of neural architectures for self-supervised audio representation learning from masked spectrograms
- arxiv url: http://arxiv.org/abs/2509.18691v1
- Date: Tue, 23 Sep 2025 06:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.725868
- Title: An overview of neural architectures for self-supervised audio representation learning from masked spectrograms
- Title(参考訳): マスク付きスペクトログラムを用いた自己教師型音声表現学習のためのニューラルネットワークの概要
- Authors: Sarthak Yadav, Sergios Theodoridis, Zheng-Hua Tan,
- Abstract要約: マスク付きスペクトログラムモデリングは汎用音声表現を学習するための顕著なアプローチとして登場してきた。
本稿では、上記の研究領域の概要を概観し、マスク付きスペクトログラムモデリングとニューラルシーケンスモデリングアーキテクチャについて述べる。
- 参考スコア(独自算出の注目度): 22.53614046805595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, self-supervised learning has amassed significant interest for training deep neural representations without labeled data. One such self-supervised learning approach is masked spectrogram modeling, where the objective is to learn semantically rich contextual representations by predicting removed or hidden portions of the input audio spectrogram. With the Transformer neural architecture at its core, masked spectrogram modeling has emerged as the prominent approach for learning general purpose audio representations, a.k.a. audio foundation models. Meanwhile, addressing the issues of the Transformer architecture, in particular the underlying Scaled Dot-product Attention operation, which scales quadratically with input sequence length, has led to renewed interest in recurrent sequence modeling approaches. Among them, Selective structured state space models (such as Mamba) and extended Long Short-Term Memory (xLSTM) are the two most promising approaches which have experienced widespread adoption. While the body of work on these two topics continues to grow, there is currently a lack of an adequate overview encompassing the intersection of these topics. In this paper, we present a comprehensive overview of the aforementioned research domains, covering masked spectrogram modeling and the previously mentioned neural sequence modeling architectures, Mamba and xLSTM. Further, we compare Transformers, Mamba and xLSTM based masked spectrogram models in a unified, reproducible framework on ten diverse downstream audio classification tasks, which will help interested readers to make informed decisions regarding suitability of the evaluated approaches to adjacent applications.
- Abstract(参考訳): 近年、自己教師型学習は、ラベル付きデータなしで深層神経表現を訓練することに対する大きな関心を集めている。
このような自己教師付き学習手法の1つはマスク付きスペクトログラムモデリングであり、入力された音声スペクトログラムの除去部分や隠蔽部分を予測することによって意味的にリッチな文脈表現を学習することを目的としている。
Transformerニューラルアーキテクチャの中核に、マスク付きスペクトログラムモデリングが、汎用オーディオ表現、すなわちオーディオ基礎モデルを学ぶための顕著なアプローチとして登場した。
一方,トランスフォーマーアーキテクチャ,特に入力シーケンス長の2次スケールのスケールド・ドット・プロダクト・アテンション・オペレーションの課題に対処するため,繰り返しシーケンス・モデリングのアプローチに新たな関心が寄せられている。
中でも、選択的構造化状態空間モデル(Mambaなど)と拡張長短期メモリ(xLSTM)は、広く採用されている2つの最も有望なアプローチである。
これら2つのトピックに関する作業の本体は成長を続けていますが、現時点では、これらのトピックの交わりを包括する十分な概要が欠如しています。
本稿では、前述の研究領域の概要を概観し、マスク付きスペクトログラムモデリングと前述のニューラルシーケンスモデリングアーキテクチャであるMambaとxLSTMについて述べる。
さらに,Transformers,Mamba,xLSTMをベースとしたマスク付きスペクトログラムモデルを,10種類の下流音声分類タスクに対して統一的かつ再現可能なフレームワークで比較することにより,評価されたアプローチが隣接アプリケーションに適合するかどうかを読者が判断するのに役立つ。
関連論文リスト
- Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Computation-Efficient Era: A Comprehensive Survey of State Space Models in Medical Image Analysis [8.115549269867403]
状態空間モデル(SSM)は、最近、シーケンシャルなモデリングと視覚的表現学習において大きな関心を集めている。
コンピュータービジョンの進歩に乗じて、医療画像はMambaモデルによる新しい時代を告げた。
論文 参考訳(メタデータ) (2024-06-05T16:29:03Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。