論文の概要: FlexSED: Towards Open-Vocabulary Sound Event Detection
- arxiv url: http://arxiv.org/abs/2509.18606v1
- Date: Tue, 23 Sep 2025 03:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.687644
- Title: FlexSED: Towards Open-Vocabulary Sound Event Detection
- Title(参考訳): FlexSED: オープン語彙音声イベント検出を目指して
- Authors: Jiarui Hai, Helin Wang, Weizhe Guo, Mounya Elhilali,
- Abstract要約: オープン語彙音声イベント検出システムFlexSEDを提案する。
事前訓練されたオーディオSSLモデルとCLAPテキストエンコーダの上に構築され、エンコーダ-デコーダ合成と適応融合戦略を導入している。
AudioSet-StrongのバニラSEDモデルに比べ、強力なゼロショットと少数ショット機能を示しながら、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.4414685940782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in large-scale sound event detection (SED) systems capable of handling hundreds of sound classes, existing multi-class classification frameworks remain fundamentally limited. They cannot process free-text sound queries, which enable more flexible and user-friendly interaction, and they lack zero-shot capabilities and offer poor few-shot adaptability. Although text-query-based separation methods have been explored, they primarily focus on source separation and are ill-suited for SED tasks that require precise temporal localization and efficient detection across large and diverse sound vocabularies. In this paper, we propose FlexSED, an open-vocabulary sound event detection system. FlexSED builds on a pretrained audio SSL model and the CLAP text encoder, introducing an encoder-decoder composition and an adaptive fusion strategy to enable effective continuous training from pretrained weights. To ensure robust supervision, it also employs large language models (LLMs) to assist in event query selection during training, addressing challenges related to missing labels. As a result, FlexSED achieves superior performance compared to vanilla SED models on AudioSet-Strong, while demonstrating strong zero-shot and few-shot capabilities. We release the code and pretrained models to support future research and applications based on FlexSED.
- Abstract(参考訳): 数百の音響クラスを扱える大規模音声イベント検出(SED)システムの進歩にもかかわらず、既存のマルチクラス分類フレームワークは基本的に制限されている。
自由テキストのサウンドクエリは処理できないため、より柔軟でユーザフレンドリなインタラクションが可能で、ゼロショット機能がなく、少数ショット適応性が低い。
テキストクエリに基づく分離手法が検討されているが、主にソース分離に焦点を当てており、時間的局所化と大規模で多様な音声語彙の効率的な検出を必要とするSEDタスクに不適である。
本稿では,自由語彙音声イベント検出システムFlexSEDを提案する。
FlexSEDは、事前訓練されたオーディオSSLモデルとCLAPテキストエンコーダに基づいて、エンコーダ-デコーダ合成と適応融合戦略を導入し、事前訓練された重みから効果的な継続的トレーニングを可能にする。
堅牢な監視を保証するため、トレーニング中のイベントクエリ選択を支援するために、大きな言語モデル(LLM)も採用している。
その結果、FlexSEDはAudioSet-StrongのバニラSEDモデルよりも優れたパフォーマンスを実現し、強力なゼロショットと少数ショット機能を示している。
FlexSEDに基づいた将来の研究とアプリケーションをサポートするために、コードと事前訓練されたモデルをリリースします。
関連論文リスト
- Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [23.83866791274789]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction [37.27069171640074]
人間は単一話者を複雑な音響環境から容易に隔離することができ、これは「カクテルパーティー効果」と呼ばれる。
従来のターゲット話者抽出アプローチはボイスプリントに依存しており、プライバシー上の懸念や、登録サンプルの品質と可用性に関する問題に直面している。
この研究は、LLM-TSEという新しいテキスト誘導型TSEパラダイムを導入している。
論文 参考訳(メタデータ) (2023-10-11T08:17:54Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。