論文の概要: AudioMosaic: Contrastive Masked Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2605.14231v1
- Date: Thu, 14 May 2026 00:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.557898
- Title: AudioMosaic: Contrastive Masked Audio Representation Learning
- Title(参考訳): AudioMosaic: 対照的なマスクドオーディオ表現学習
- Authors: Hanxun Huang, Qizhou Wang, Xingjun Ma, Cihang Xie, Christopher Leckie, Sarah Erfani,
- Abstract要約: 一般的な音声理解のためのコントラスト学習型オーディオエンコーダであるtextbfAudioMosaic を紹介する。
AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構成する。
実験によると、AudioMosaicはいくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 53.52371029884106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio self-supervised learning (SSL) aims to learn general-purpose representations from large-scale unlabeled audio data. While recent advances have been driven mainly by generative reconstruction objectives, contrastive approaches remain less explored, partly due to the difficulty of designing effective audio augmentations and the large batch sizes required for contrastive pre-training. We introduce \textbf{AudioMosaic}, a contrastive learning-based audio encoder for general audio understanding. During pre-training, AudioMosaic constructs positive pairs by applying structured time-frequency masking to spectrogram patches, which reduces memory usage and enables efficient large-batch training. Compared with generative approaches, the AudioMosaic encoder learns more discriminative utterance-level representations that demonstrate strong transferability across datasets, domains, and acoustic conditions. Extensive experiments show that AudioMosaic achieves state-of-the-art performance on several standard audio benchmarks under both linear probing and fine-tuning. We further show that integrating the pretrained AudioMosaic encoder into audio-language models improves performance on audio-language tasks. The code is publicly available in our \href{https://github.com/HanxunH/AudioMosaic}{GitHub repository}.
- Abstract(参考訳): 音声自己教師型学習(SSL)は,大規模未ラベル音声データから汎用的な表現を学習することを目的としている。
最近の進歩は、主に生成的再構成の目的によって推進されているが、効果的なオーディオ拡張設計の難しさや、コントラッシブ事前学習に必要な大きなバッチサイズのために、コントラスト的アプローチは検討されていない。
一般的な音声理解のためのコントラスト学習型オーディオエンコーダである textbf{AudioMosaic} を紹介する。
事前トレーニング中、AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構築する。
生成的アプローチと比較して、AudioMosaicエンコーダは、データセット、ドメイン、音響条件間の強い伝達可能性を示す、より差別的な発話レベル表現を学習する。
大規模な実験により、AudioMosaicは線形探索と微調整の両方の下で、いくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成することが示された。
さらに,事前学習したAudioMosaicエンコーダをオーディオ言語モデルに統合することで,音声言語タスクの性能が向上することを示す。
コードは我々の \href{https://github.com/HanxunH/AudioMosaic}{GitHub repository} で公開されている。
関連論文リスト
- Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。