論文の概要: AudioMAE++: learning better masked audio representations with SwiGLU FFNs
- arxiv url: http://arxiv.org/abs/2507.10464v1
- Date: Mon, 14 Jul 2025 16:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.475457
- Title: AudioMAE++: learning better masked audio representations with SwiGLU FFNs
- Title(参考訳): AudioMAE++: SwiGLU FFNsでより優れたマスク付きオーディオ表現を学ぶ
- Authors: Sarthak Yadav, Sergios Theodoridis, Zheng-Hua Tan,
- Abstract要約: Masked Autoencoders (MAEs) は、音声スペクトログラムパッチを訓練し、自己教師付き音声表現を学習するための顕著なアプローチとして登場した。
本稿では,音声マスク付きオートエンコーダであるAudioMAE++を提案する。
AudioSetデータセットで事前トレーニングされた場合、提案されたAudioMAE++モデルは、既存のMAEベースの10のダウンストリームタスクよりも優れている。
- 参考スコア(独自算出の注目度): 16.359968937403405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders (MAEs) trained on audio spectrogram patches have emerged as a prominent approach for learning self-supervised audio representations. While several recent papers have evaluated key aspects of training MAEs on audio data, the majority of these approaches still leverage vanilla transformer building blocks, whereas the transformer community has seen steady integration of newer architectural advancements. In this work, we propose AudioMAE++, a revamped audio masked autoencoder with two such enhancements, namely macaron-style transformer blocks with gated linear units. When pretrained on the AudioSet dataset, the proposed AudioMAE++ models outperform existing MAE based approaches on 10 diverse downstream tasks, demonstrating excellent performance on audio classification and speech-based benchmarks. The proposed AudioMAE++ models also demonstrate excellent scaling characteristics, outperforming directly comparable standard MAE baselines with up to 4x more parameters.
- Abstract(参考訳): Masked Autoencoders (MAEs) は、音声スペクトログラムパッチを訓練し、自己教師付き音声表現を学習するための顕著なアプローチとして登場した。
最近のいくつかの論文では、オーディオデータ上でMAEをトレーニングする上で重要な側面が評価されているが、これらのアプローチの大半は依然としてバニラトランスフォーマーのビルディングブロックを活用しているが、トランスフォーマーコミュニティは、より新しいアーキテクチャの進歩を着実に統合している。
本研究では,音声マスク付きオートエンコーダであるAudioMAE++を提案する。
AudioSetデータセットで事前トレーニングされた場合、提案されたAudioMAE++モデルは、既存のMAEベースの10のダウンストリームタスクのアプローチよりも優れており、オーディオ分類と音声ベースのベンチマークで優れたパフォーマンスを示している。
提案したAudioMAE++モデルは、最大4倍のパラメータを持つ、直接的に比較可能な標準MAEベースラインよりも優れたスケーリング特性を示している。
関連論文リスト
- AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.84633243365093]
AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。
オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。
データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-13T16:30:59Z) - Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。
10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-06-04T10:19:14Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Audio Mamba: Pretrained Audio State Space Model For Audio Tagging [1.2123876307427102]
状態空間モデルとの長い音声スペクトログラム依存性をキャプチャする自己注意のないアプローチであるAudio Mambaを提案する。
2つのオーディオタグ付けデータセットの実験結果から,Audio Mambaのパラメータ効率を示すとともに,第3パラメータを持つSOTAオーディオスペクトログラム変換器に匹敵する結果を得た。
論文 参考訳(メタデータ) (2024-05-22T13:35:56Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。