論文の概要: General-purpose audio representation learning for real-world sound scenes
- arxiv url: http://arxiv.org/abs/2506.00934v1
- Date: Sun, 01 Jun 2025 09:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.803497
- Title: General-purpose audio representation learning for real-world sound scenes
- Title(参考訳): 実世界の音響シーンのための汎用音声表現学習
- Authors: Goksenin Yuksel, Marcel van Gerven, Kiki van der Heijden,
- Abstract要約: 汎用実世界音響モデル(GRAM)のための新しい自己教師型学習手法を提案する。
GRAMトレーニングアプローチは、自然な雑音のある音のシーンに対して、頑健な空間的音声表現学習を可能にする。
提案手法は, ドライ, 非空間, シングルソースのサウンドシーンと自然主義的なサウンドシーン間の性能ギャップを最小化することを示す。
- 参考スコア(独自算出の注目度): 1.37621344207686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While audio foundation models perform well on myriad of tasks from sound classification to speech analysis, these models are trained and tested on dry, non-spatial, single-source audio clips. This limits their success in real-world situations and results in spatially unaware audio embeddings. To address these limitations, we propose a novel self-supervised training approach for General-Purpose, Real-world Audio Models (GRAMs). The GRAM training approach enables robust spatial audio representation learning for naturalistic, noisy sound scenes and can be applied to any masking-based deep learning model. We demonstrate the success of our approach by training two state-of-the-art models, one with a transformer and one with a mamba backbone. We assess the quality of the extracted audio representations from GRAMs using the original version of the HEAR benchmark, a newly synthesized, naturalistic version of the HEAR benchmark, and novel sound localization tasks based on HEAR benchmark datasets. The results show that our approach minimizes the performance gap between dry, non-spatial, single-source sound scenes and naturalistic sound scenes for crucial tasks such as auditory scene analysis, outperforming existing state-of-the-art audio foundation models at a fraction of the training steps. Moreover, GRAMs show state-of-the-art performance on sound localization tasks, exceeding even supervised sound localization models. In sum, the proposed approach represents a significant advancement towards robust audio foundation models for real-world applications with state-of-the-art performance on naturalistic sound scenes as well as spatial audio representation learning.
- Abstract(参考訳): 音声基礎モデルは、音声分類から音声分析まで、無数のタスクでよく機能するが、これらのモデルは、乾燥した非空間的な単一ソースオーディオクリップで訓練され、テストされる。
これにより、現実の状況での彼らの成功が制限され、空間的に認識できないオーディオ埋め込みが発生する。
これらの制約に対処するため,我々は汎用実世界音響モデル(GRAM)のための新たな自己教師型トレーニング手法を提案する。
GRAMトレーニングアプローチは、自然な雑音のある音のシーンに対する頑健な空間音声表現学習を可能にし、マスキングに基づくディープラーニングモデルに適用することができる。
提案手法は,トランスフォーマーとマンババックボーンを併用した2つの最先端モデルをトレーニングすることで,その成功を実証する。
HEARベンチマークの原版,HEARベンチマークの新たに合成された自然なバージョン,HEARベンチマークデータセットに基づく新しい音像定位タスクを用いて,GRAMから抽出した音声表現の品質を評価する。
提案手法は, 音場解析, 既存の音声基礎モデルの性能を訓練段階のごく一部で向上させるなど, ドライで非空間的, 単一音源の音場と自然主義的な音場との間の性能ギャップを最小化できることを示す。
さらに、GRAMは音像定位タスクに最先端の性能を示し、教師付き音像定位モデルを超えている。
要約すると,提案手法は,空間的音響表現学習だけでなく,自然的音響シーンにおける最先端の性能を持つ実世界のアプリケーションのためのロバストオーディオ基礎モデルへの大きな進歩を示している。
関連論文リスト
- Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。
既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文 参考訳(メタデータ) (2025-03-24T16:56:04Z) - Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。
10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-06-04T10:19:14Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。