論文の概要: SSLAM: Enhancing Self-Supervised Models with Audio Mixtures for Polyphonic Soundscapes
- arxiv url: http://arxiv.org/abs/2506.12222v1
- Date: Fri, 13 Jun 2025 20:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.494727
- Title: SSLAM: Enhancing Self-Supervised Models with Audio Mixtures for Polyphonic Soundscapes
- Title(参考訳): SSLAM:ポリフォニックサウンドスケープのためのオーディオミキサーを用いたセルフスーパービジョンモデルの強化
- Authors: Tony Alex, Sara Ahmed, Armin Mustafa, Muhammad Awais, Philip JB Jackson,
- Abstract要約: Self-Supervised Learning from Audio Mixtures (SSLAM) は、ポリフォニックデータから学習するモデルの能力を改善するために設計された。
SSLAMはAudioSet-2M(AS-2M)を最大3.9%改善し、平均精度(mAP)は50.2である。
ポリフォニックデータセットでは、SSLAMは新しいSOTAを線形評価と微調整の両方で設定し、パフォーマンスは最大9.1%向上した。
- 参考スコア(独自算出の注目度): 9.639849424773614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-trained audio networks have seen widespread adoption in real-world systems, particularly in multi-modal large language models. These networks are often employed in a frozen state, under the assumption that the SSL pre-training has sufficiently equipped them to handle real-world audio. However, a critical question remains: how well do these models actually perform in real-world conditions, where audio is typically polyphonic and complex, involving multiple overlapping sound sources? Current audio SSL methods are often benchmarked on datasets predominantly featuring monophonic audio, such as environmental sounds, and speech. As a result, the ability of SSL models to generalize to polyphonic audio, a common characteristic in natural scenarios, remains underexplored. This limitation raises concerns about the practical robustness of SSL models in more realistic audio settings. To address this gap, we introduce Self-Supervised Learning from Audio Mixtures (SSLAM), a novel direction in audio SSL research, designed to improve, designed to improve the model's ability to learn from polyphonic data while maintaining strong performance on monophonic data. We thoroughly evaluate SSLAM on standard audio SSL benchmark datasets which are predominantly monophonic and conduct a comprehensive comparative analysis against SOTA methods using a range of high-quality, publicly available polyphonic datasets. SSLAM not only improves model performance on polyphonic audio, but also maintains or exceeds performance on standard audio SSL benchmarks. Notably, it achieves up to a 3.9\% improvement on the AudioSet-2M (AS-2M), reaching a mean average precision (mAP) of 50.2. For polyphonic datasets, SSLAM sets new SOTA in both linear evaluation and fine-tuning regimes with performance improvements of up to 9.1\% (mAP).
- Abstract(参考訳): 自己教師付き事前訓練されたオーディオネットワークは、現実世界のシステム、特にマルチモーダルな大規模言語モデルで広く採用されている。
これらのネットワークは、SSL事前トレーニングが現実世界のオーディオを扱うのに十分な装備を備えているという前提のもと、凍結状態にしばしば使用される。
音声は一般的にポリフォニックで複雑で、複数の重なり合う音源が伴う。
現在のオーディオSSLメソッドは、主に環境音や音声などのモノフォニックオーディオを特徴とするデータセット上でベンチマークされることが多い。
結果として、自然シナリオの共通する特徴であるポリフォニックオーディオに一般化するSSLモデルの能力は、いまだ未解明のままである。
この制限は、より現実的なオーディオ設定におけるSSLモデルの実用的堅牢性に関する懸念を提起する。
このギャップに対処するために、音声SSL研究の新しい方向性であるSSLAM(Self-Supervised Learning from Audio Mixtures)を導入する。
我々は標準音声SSLベンチマークデータセットに対してSSLAMを徹底的に評価し、高品質で公開可能なポリフォニックデータセットを用いて、主にモノフォニックであり、SOTA法に対して包括的な比較分析を行う。
SSLAMはポリフォニックオーディオのモデル性能を向上するだけでなく、標準のSSLベンチマークのパフォーマンスも維持または超える。
特に、AudioSet-2M(AS-2M)の最大3.9\%の改善が達成され、平均平均精度(mAP)は50.2である。
ポリフォニックデータセットでは、SSLAMは新しいSOTAを線形評価と微調整の両方で設定し、パフォーマンスは最大9.1\%(mAP)まで向上した。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Exploring Federated Self-Supervised Learning for General Purpose Audio
Understanding [14.468870364990291]
本稿では,大規模な分散異種クライアントから中間機能表現を学習可能な新しいF-SSLフレームワークであるFASSLを提案する。
本研究は,音声-検索タスクにおける集中型音声-SSLアプローチと同等に音声F-SSLアプローチが動作することを示した。
論文 参考訳(メタデータ) (2024-02-05T10:57:48Z) - EAT: Self-Supervised Pre-Training with Efficient Audio Transformer [2.443213094810588]
EAT(Efficient Audio Transformer)は、画像モダリティにおけるData2vec 2.0とオーディオモダリティにおけるAudio-MAEの成功に触発されている。
Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。
実験の結果、EATは様々な音声関連タスクにおいて、最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-01-07T14:31:27Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。