論文の概要: On Temporal Guidance and Iterative Refinement in Audio Source Separation
- arxiv url: http://arxiv.org/abs/2507.17297v1
- Date: Wed, 23 Jul 2025 07:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.91179
- Title: On Temporal Guidance and Iterative Refinement in Audio Source Separation
- Title(参考訳): 音源分離における時間的誘導と反復的補正について
- Authors: Tobias Morocutti, Jonathan Greif, Paul Primus, Florian Schmid, Gerhard Widmer,
- Abstract要約: 音響シーンの空間的セマンティックセグメンテーションのための新しいアプローチを提案する。
我々は、アクティブサウンドクラスを検出するために、事前訓練されたトランスフォーマーを微調整する。
第二に、この微調整変換器の別インスタンスを用いて、音声イベント検出を行う。
第3に,分離品質を段階的に向上する反復改良機構を実装した。
- 参考スコア(独自算出の注目度): 3.035039100561926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial semantic segmentation of sound scenes (S5) involves the accurate identification of active sound classes and the precise separation of their sources from complex acoustic mixtures. Conventional systems rely on a two-stage pipeline - audio tagging followed by label-conditioned source separation - but are often constrained by the absence of fine-grained temporal information critical for effective separation. In this work, we address this limitation by introducing a novel approach for S5 that enhances the synergy between the event detection and source separation stages. Our key contributions are threefold. First, we fine-tune a pre-trained Transformer to detect active sound classes. Second, we utilize a separate instance of this fine-tuned Transformer to perform sound event detection (SED), providing the separation module with detailed, time-varying guidance. Third, we implement an iterative refinement mechanism that progressively enhances separation quality by recursively reusing the separator's output from previous iterations. These advancements lead to significant improvements in both audio tagging and source separation performance, as demonstrated by our system's second-place finish in Task 4 of the DCASE Challenge 2025. Our implementation and model checkpoints are available in our GitHub repository: https://github.com/theMoro/dcase25task4 .
- Abstract(参考訳): 音響シーンの空間的セマンティックセグメンテーション(S5)は、アクティブサウンドクラスの正確な識別と、複雑な音響混合物からの音源の正確な分離を含む。
従来のシステムは、オーディオタグ付けとラベル付きソース分離という2段階のパイプラインに依存しているが、多くの場合、効果的な分離に不可欠な微細な時間情報の欠如によって制約される。
本稿では,イベント検出とソース分離の相乗効果を高めるS5の新しいアプローチを導入することで,この制限に対処する。
私たちの重要な貢献は3倍です。
まず、学習済みのトランスフォーマーを微調整して、アクティブな音のクラスを検知する。
第二に、この微調整トランスフォーマーの別インスタンスを使用して、音事象検出(SED)を行い、分離モジュールに詳細な時間変化のガイダンスを提供する。
第3に, 分離器の出力を以前の繰り返しから再帰的に再利用することにより, 分離品質を段階的に向上する反復改良機構を実装した。
これらの進歩は,DCASE Challenge 2025の第4タスクの2位で,オーディオタグ付けとソース分離性能に大きな改善をもたらした。
私たちの実装とモデルチェックポイントはGitHubリポジトリで利用可能です。
関連論文リスト
- Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。
提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文 参考訳(メタデータ) (2024-07-16T14:11:44Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - STMixer: A One-Stage Sparse Action Detector [48.0614066856134]
我々はSTMixerと呼ばれる新しいワンステージアクション検出器を提案する。
我々は,STMixerに識別ビデオ機能セットをマイニングする柔軟性を付与する,クエリベースの適応型特徴サンプリングモジュールを提案する。
AVA, UCF101-24, JHMDB のデータセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-03-28T10:47:06Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Separator-Transducer-Segmenter: Streaming Recognition and Segmentation
of Multi-party Speech [9.217215329418629]
重なり合う音声による多人数会話のストリーミング認識とセグメンテーションは、次世代音声アシスタントアプリケーションにとって不可欠である。
本研究では,従来のマルチターンリカレントニューラルネットワークトランスデューサ(MT-RNN-T)における課題を,新たなアプローチであるセパレータ-トランスデューサ-セグメンタ(STS)を用いて解決する。
最良モデルでは、4.6%の abs. turn counting accuracy improve と 17% rel. word error rate (WER) improve on LibriCSS dataset than the previously published work。
論文 参考訳(メタデータ) (2022-05-10T22:40:39Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。