論文の概要: Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries
- arxiv url: http://arxiv.org/abs/2507.16343v1
- Date: Tue, 22 Jul 2025 08:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.030131
- Title: Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries
- Title(参考訳): 音を検知する:マルチモーダルクエリによる開語彙音事象検出
- Authors: Pengfei Cai, Yan Song, Qing Gu, Nan Jiang, Haoyu Song, Ian McLoughlin,
- Abstract要約: マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
- 参考スコア(独自算出の注目度): 23.83866791274789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing sound event detection~(SED) algorithms operate under a closed-set assumption, restricting their detection capabilities to predefined classes. While recent efforts have explored language-driven zero-shot SED by exploiting audio-language models, their performance is still far from satisfactory due to the lack of fine-grained alignment and cross-modal feature fusion. In this work, we propose the Detect Any Sound Model (DASM), a query-based framework for open-vocabulary SED guided by multi-modal queries. DASM formulates SED as a frame-level retrieval task, where audio features are matched against query vectors derived from text or audio prompts. To support this formulation, DASM introduces a dual-stream decoder that explicitly decouples event recognition and temporal localization: a cross-modality event decoder performs query-feature fusion and determines the presence of sound events at the clip-level, while a context network models temporal dependencies for frame-level localization. Additionally, an inference-time attention masking strategy is proposed to leverage semantic relations between base and novel classes, substantially enhancing generalization to novel classes. Experiments on the AudioSet Strong dataset demonstrate that DASM effectively balances localization accuracy with generalization to novel classes, outperforming CLAP-based methods in open-vocabulary setting (+ 7.8 PSDS) and the baseline in the closed-set setting (+ 6.9 PSDS). Furthermore, in cross-dataset zero-shot evaluation on DESED, DASM achieves a PSDS1 score of 42.2, even exceeding the supervised CRNN baseline. The project page is available at https://cai525.github.io/Transformer4SED/demo_page/DASM/.
- Abstract(参考訳): ほとんどの既存の音声イベント検出〜(SED)アルゴリズムはクローズドセットの仮定の下で動作し、検出能力を事前に定義されたクラスに制限する。
近年,音声モデルの活用による言語駆動型ゼロショットSEDの検討が進んでいるが,細粒度アライメントやクロスモーダルな特徴融合が欠如しているため,その性能は十分ではない。
本研究では,複数モーダルクエリで案内されるオープン語彙SEDのための問合せベースのフレームワークであるDASMを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、そこでは音声特徴がテキストや音声プロンプトから派生したクエリベクトルと一致している。
この定式化をサポートするために、DASMは、イベント認識と時間的ローカライゼーションを明確に分離するデュアルストリームデコーダを導入する: クロスモーダルイベントデコーダは、クエリーフュージョンを実行し、クリップレベルにおける音声イベントの存在を判定し、コンテキストネットワークはフレームレベルのローカライゼーションのための時間的依存関係をモデル化する。
さらに, 基本クラスと新規クラス間の意味的関係を活用するために, 推論時注意マスキング戦略を提案し, 新規クラスへの大幅な一般化を図った。
AudioSet Strongデータセットの実験では、DASMがローカライズ精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定(+ 7.8 PSDS)におけるCLAPベースのメソッド、クローズドセット設定(+ 6.9 PSDS)におけるベースラインよりも優れていることが示されている。
さらに、DESED上でのクロスデータセットゼロショット評価では、DASMは教師付きCRNNベースラインを超え、PSDS1スコア42.2を達成する。
プロジェクトページはhttps://cai525.github.io/Transformer4SED/demo_page/DASM/で公開されている。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Temporarily-Aware Context Modelling using Generative Adversarial
Networks for Speech Activity Detection [43.662221486962274]
音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。
我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。
NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-04-02T02:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。