論文の概要: Unleashing the Power of Natural Audio Featuring Multiple Sound Sources
- arxiv url: http://arxiv.org/abs/2504.17782v1
- Date: Thu, 24 Apr 2025 17:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.490442
- Title: Unleashing the Power of Natural Audio Featuring Multiple Sound Sources
- Title(参考訳): 複数の音源を有する自然音のパワーを解放する
- Authors: Xize Cheng, Slytherin Wang, Zehan Wang, Rongjie Huang, Tao Jin, Zhou Zhao,
- Abstract要約: ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 54.38251699625379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal sound separation aims to extract clean audio tracks corresponding to distinct events from mixed audio, which is critical for artificial auditory perception. However, current methods heavily rely on artificially mixed audio for training, which limits their ability to generalize to naturally mixed audio collected in real-world environments. To overcome this limitation, we propose ClearSep, an innovative framework that employs a data engine to decompose complex naturally mixed audio into multiple independent tracks, thereby allowing effective sound separation in real-world scenarios. We introduce two remix-based evaluation metrics to quantitatively assess separation quality and use these metrics as thresholds to iteratively apply the data engine alongside model training, progressively optimizing separation performance. In addition, we propose a series of training strategies tailored to these separated independent tracks to make the best use of them. Extensive experiments demonstrate that ClearSep achieves state-of-the-art performance across multiple sound separation tasks, highlighting its potential for advancing sound separation in natural audio scenarios. For more examples and detailed results, please visit our demo page at https://clearsep.github.io.
- Abstract(参考訳): ユニバーサル音声分離は, 人工聴覚知覚にとって重要な混合音声から, 異なる事象に対応するクリーンな音声トラックを抽出することを目的としている。
しかし、現在の方法は、実環境において収集された自然混合オーディオに一般化する能力を制限した、人工混合オーディオのトレーニングに大きく依存している。
この制限を克服するために、複雑な混合音声を複数の独立したトラックに分解するデータエンジンを用いた革新的なフレームワークであるClearSepを提案する。
分離品質を定量的に評価するための2つのリミックスベース評価指標を導入し、これらの指標をしきい値として使用し、モデルトレーニングと同時にデータエンジンを反復的に適用し、段階的に分離性能を最適化する。
さらに,これらの分離した独立軌道に合わせた一連のトレーニング戦略を提案し,その有効利用について検討する。
大規模な実験により、ClearSepは複数の音分離タスクにまたがって最先端のパフォーマンスを実現し、自然音のシナリオにおける音分離の進展の可能性を強調している。
さらなるサンプルと詳細な結果については、https://clearsep.github.io.comのデモページを参照してほしい。
関連論文リスト
- Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。
既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文 参考訳(メタデータ) (2025-03-24T16:56:04Z) - Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。
音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。
本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-27T16:13:50Z) - OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。
トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。
我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文 参考訳(メタデータ) (2024-10-28T17:58:15Z) - Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。
提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文 参考訳(メタデータ) (2024-07-16T14:11:44Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Self-Supervised Learning from Automatically Separated Sound Scenes [38.71803524843168]
本稿では,教師なしの自動音声分離を用いてラベルなし音声シーンを意味的にリンクされたビューに分解する。
入力混合物と自動的に分離された出力を関連付ける学習は、過去のアプローチよりも強い表現を生み出す。
論文 参考訳(メタデータ) (2021-05-05T15:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。