Fugu-MT 論文翻訳(概要): Shared Representation Learning for Reference-Guided Targeted Sound Detection

論文の概要: Shared Representation Learning for Reference-Guided Targeted Sound Detection

arxiv url: http://arxiv.org/abs/2603.17025v1
Date: Tue, 17 Mar 2026 18:05:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.339772
Title: Shared Representation Learning for Reference-Guided Targeted Sound Detection
Title（参考訳）: 基準誘導音源検出のための共有表現学習
Authors: Shubham Gupta, Adarsh Arigala, B. R. Dilleswari, Sri Rama Murty Kodukula,
Abstract要約: 共有表現空間内で参照音声と混合音声の両方を処理する統一エンコーダアーキテクチャを提案する。我々は、セグメントレベルF1スコア83.15%のターゲット音検出のための新しい最先端のベンチマークを構築した。
参考スコア（独自算出の注目度）: 12.339689044414401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human listeners exhibit the remarkable ability to segregate a desired sound from complex acoustic scenes through selective auditory attention, motivating the study of Targeted Sound Detection (TSD). The task requires detecting and localizing a target sound in a mixture when a reference audio of that sound is provided. Prior approaches, rely on generating a sound-discriminative conditional embedding vector for the reference and pairing it with a mixture encoder, jointly optimized with a multi-task learning approach. In this work, we propose a unified encoder architecture that processes both the reference and mixture audio within a shared representation space, promoting stronger alignment while reducing architectural complexity. This design choice not only simplifies the overall framework but also enhances generalization to unseen classes. Following the multi-task training paradigm, our method achieves substantial improvements over prior approaches, surpassing existing methods and establishing a new state-of-the-art benchmark for targeted sound detection, with a segment-level F1 score of 83.15% and an overall accuracy of 95.17% on the URBAN-SED dataset.
Abstract（参考訳）: 人間の聴取者は、複雑な音響シーンから選択的な聴覚的注意を通して所望の音を分離する素晴らしい能力を示し、ターゲット音検出(TSD)の研究を動機付けている。このタスクは、その音の参照音声が提供される際に、混合音中のターゲット音を検出し、位置決めする必要がある。従来のアプローチでは、参照のための音響識別的条件埋め込みベクトルを生成し、それを混合エンコーダと組み合わせ、マルチタスク学習アプローチと共同で最適化する。本研究では,共有表現空間内で参照オーディオと混合オーディオの両方を処理する統一エンコーダアーキテクチャを提案する。この設計選択は、全体的なフレームワークを単純化するだけでなく、目に見えないクラスへの一般化も強化する。マルチタスク学習のパラダイムに従って,提案手法は従来手法よりも大幅に改善され,既存の手法を超越し,ターゲット音検出のための新たな最先端ベンチマークが確立された。

関連論文リスト

Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2025-05-29T07:47:48Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments [34.67934887761352]
従来,雑音による話者特性の抽出について検討されてきた。そこで本研究では,雑音によるターゲット話者情報を符号化する新しい学習戦略について検討する。実験により,従来よりも2.1dB以上のSI-SNRiを実現するモデルアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2025-02-23T15:33:44Z)
Prompting Segmentation with Sound Is Generalizable Audio-Visual Source Localizer [22.846623384472377]
本稿では,アンコーダ-プロンプト-デコーダのパラダイムを導入し,融合したオーディオ視覚機能からローカライゼーションをデコードする。具体的には,まずセマンティック・アウェア・オーディオ・プロンプト (SAP) の構築について提案する。我々は,視覚基盤モデルの適切な知識を維持しつつ,最小限のトレーニング努力を維持するための相関適応器(ColA)を開発した。
論文参考訳（メタデータ） (2023-09-13T05:43:35Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文参考訳（メタデータ） (2021-04-01T07:48:29Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Statistical Context-Dependent Units Boundary Correction for Corpus-based Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文参考訳（メタデータ） (2020-03-05T12:42:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。