論文の概要: ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2507.02666v1
- Date: Thu, 03 Jul 2025 14:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.47118
- Title: ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning
- Title(参考訳): ASDA:自己監督型表現学習のための音声スペクトログラム差分注意機構
- Authors: Junyu Wang, Tianrui Wang, Meng Ge, Longbiao Wang, Jianwu Dang,
- Abstract要約: 実験の結果,ASDAモデルは複数のベンチマークでSOTA(State-of-the-art)性能を達成できた。
これらの結果は、ASDAの音声タスクにおける有効性を強調し、より広範なアプリケーションへの道を開いた。
- 参考スコア(独自算出の注目度): 57.67273340380651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent advancements in audio self-supervised representation learning, the standard Transformer architecture has emerged as the predominant approach, yet its attention mechanism often allocates a portion of attention weights to irrelevant information, potentially impairing the model's discriminative ability. To address this, we introduce a differential attention mechanism, which effectively mitigates ineffective attention allocation through the integration of dual-softmax operations and appropriately tuned differential coefficients. Experimental results demonstrate that our ASDA model achieves state-of-the-art (SOTA) performance across multiple benchmarks, including audio classification (49.0% mAP on AS-2M, 41.5% mAP on AS20K), keyword spotting (98.3% accuracy on SPC-2), and environmental sound classification (96.1% accuracy on ESC-50). These results highlight ASDA's effectiveness in audio tasks, paving the way for broader applications.
- Abstract(参考訳): 近年の音声自己教師型表現学習の進歩において、標準トランスフォーマーアーキテクチャが主流のアプローチとして登場したが、その注意機構は、しばしば無関係な情報に注意重みを割り当て、モデルの識別能力を損なう可能性がある。
そこで本研究では,2重ソフトマックス演算と適切に調整された微分係数を統合することにより,非効率な注意割当を効果的に緩和する差分アテンション機構を提案する。
実験の結果,ASDAモデルでは音声分類(AS-2Mでは49.0% mAP,AS20Kでは41.5% mAP),キーワードスポッティング(SPC-2では98.3%),環境音分類(ESC-50では96.1%)など,複数のベンチマークでSOTA(State-of-the-art)性能を達成した。
これらの結果は、ASDAの音声タスクにおける有効性を強調し、より広範なアプリケーションへの道を開いた。
関連論文リスト
- Performance improvement of spatial semantic segmentation with enriched audio features and agent-based error correction for DCASE 2025 Challenge Task 4 [2.68085089595424]
本報告では,DCASE 2025 Challengeの第4タスクの提出システムについて述べる。
メルスペクトル機能から抽出した埋め込み機能に、追加のオーディオ機能が含まれている。
次に、S5システムによって処理された出力にエージェントベースのラベル補正システムを適用する。
論文 参考訳(メタデータ) (2025-06-26T12:27:52Z) - Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0]
画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。
分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。
セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-27T15:14:04Z) - Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models [75.58140912100318]
本稿では,DiffQKV の注目を含む新しいアーキテクチャを応用した,システムドメインに特化した効率的な大規模言語モデルを提案する。
我々は、モデルがK成分とV成分の圧縮に対して様々な感度を持つことを示す実験を行い、微分圧縮KVの開発に繋がる。
我々は最初の総合ベンチマークであるAIMiciusを紹介し、Sigmaはすべてのタスクで顕著なパフォーマンスを示し、52.5%の絶対的な改善でGPT-4を著しく上回った。
論文 参考訳(メタデータ) (2025-01-23T12:58:14Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Microphone Conversion: Mitigating Device Variability in Sound Event
Classification [0.0]
本稿では,CycleGANを用いたデバイス変動に対する音事象分類(SEC)システムのレジリエンスを高めるための新しい拡張手法を提案する。
本手法は,入力スペクトログラムを異なるデバイスに記録したかのように変換することで,トレーニングデータの限られたデバイス多様性に対処する。
論文 参考訳(メタデータ) (2024-01-12T21:59:01Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。