論文の概要: Exploring the Potential of SSL Models for Sound Event Detection
- arxiv url: http://arxiv.org/abs/2505.11889v1
- Date: Sat, 17 May 2025 07:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.918101
- Title: Exploring the Potential of SSL Models for Sound Event Detection
- Title(参考訳): 音事象検出のためのSSLモデルの可能性を探る
- Authors: Hanfang Cui, Longfei Song, Li Li, Dongxing Xu, Yanhua Long,
- Abstract要約: 自己教師付き学習(SSL)モデルは、音事象検出(SED)のための強力な表現を提供する
本研究では,SEDの最適モデル選択と統合を導くために,最先端のSSLモデルを体系的に評価する。
本稿では,各SSL埋め込み統合,デュアルモーダル融合,フルアグリゲーションという3つの融合戦略を通じて,異種SSL表現を組み合わせたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.6731129629430725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) models offer powerful representations for sound event detection (SED), yet their synergistic potential remains underexplored. This study systematically evaluates state-of-the-art SSL models to guide optimal model selection and integration for SED. We propose a framework that combines heterogeneous SSL representations (e.g., BEATs, HuBERT, WavLM) through three fusion strategies: individual SSL embedding integration, dual-modal fusion, and full aggregation. Experiments on the DCASE 2023 Task 4 Challenge reveal that dual-modal fusion (e.g., CRNN+BEATs+WavLM) achieves complementary performance gains, while CRNN+BEATs alone delivers the best results among individual SSL models. We further introduce normalized sound event bounding boxes (nSEBBs), an adaptive post-processing method that dynamically adjusts event boundary predictions, improving PSDS1 by up to 4% for standalone SSL models. These findings highlight the compatibility and complementarity of SSL architectures, providing guidance for task-specific fusion and robust SED system design.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルは、音事象検出(SED)のための強力な表現を提供するが、その相乗的ポテンシャルは未解明のままである。
本研究では,SEDの最適モデル選択と統合を導くために,最先端のSSLモデルを体系的に評価する。
本稿では, 個別のSSL埋め込み統合, デュアルモーダル融合, フルアグリゲーションという3つの融合戦略を通じて, 不均一なSSL表現(BEAT, HuBERT, WavLM)を組み合わせるフレームワークを提案する。
DCASE 2023 Task 4 Challengeの実験では、二重モード融合(例えば、CRNN+BEATs+WavLM)が相補的なパフォーマンス向上を達成する一方、CRNN+BEATsは個々のSSLモデルの中で最高の結果をもたらす。
さらに、イベント境界予測を動的に調整する適応後処理法である正規化音声イベントバウンディングボックス(nSEBBs)を導入し、スタンドアロンSSLモデルのPSDS1を最大4%改善する。
これらの知見は、SSLアーキテクチャの互換性と相補性を強調し、タスク固有の融合と堅牢なSEDシステム設計のためのガイダンスを提供する。
関連論文リスト
- Breaking the SSL-AL Barrier: A Synergistic Semi-Supervised Active Learning Framework for 3D Object Detection [34.049483237480615]
従来のアクティブな学習アプローチは、データ選択の初期モデルをトレーニングするために、少量のラベル付きデータに依存しています。
本稿では,S-SSALと呼ばれるSynergistic Semi-Supervised Active Learningフレームワークを提案する。
S-SSALは全データセットでトレーニングされたモデルに匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2025-01-26T08:43:59Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - An Ensemble Semi-Supervised Adaptive Resonance Theory Model with
Explanation Capability for Pattern Classification [41.35711585943589]
本稿では,教師付き非教師付き適応共振理論(ART)を用いた新たなSSLモデルを提案する。
SSL-ARTの主な利点は、オンライン学習と冗長なプロトタイプノード数の削減である。
WESSL-ARTと呼ばれるアンサンブルSSL-ARTモデルを形成するために、重み付き投票方式が導入された。
論文 参考訳(メタデータ) (2023-05-19T20:20:44Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Boosting Discriminative Visual Representation Learning with
Scenario-Agnostic Mixup [54.09898347820941]
自己教師付き学習(SSL)と教師付き学習(SL)の両方のシナリオに対して,textbfScenario-textbfAgnostic textbfMixup (SAMix)を提案する。
具体的には、2つの混合クラス間の局所的な滑らかさを最適化するために、混合生成の目的関数を仮説化し、検証する。
非自明な混合サンプルを効果的に提供し、転送可能な能力を向上させるラベルフリーな生成サブネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-30T14:49:59Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - SemiNLL: A Framework of Noisy-Label Learning by Semi-Supervised Learning [58.26384597768118]
SemiNLLはSS戦略とSSLモデルをエンドツーエンドで組み合わせた汎用フレームワークである。
我々のフレームワークは、様々なSS戦略やSSLバックボーンを吸収し、そのパワーを利用して有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-12-02T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。