論文の概要: The Cone of Silence: Speech Separation by Localization
- arxiv url: http://arxiv.org/abs/2010.06007v1
- Date: Mon, 12 Oct 2020 20:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 07:54:34.409727
- Title: The Cone of Silence: Speech Separation by Localization
- Title(参考訳): 沈黙の円錐:局所化による音声分離
- Authors: Teerapat Jenrungrot, Vivek Jayaram, Steve Seitz, Ira
Kemelmacher-Shlizerman
- Abstract要約: 未知の話者の複数マイクロホン記録を同時に行うと、ソースを同時にローカライズし、個々の話者を分離する。
実験は、特に高レベルの背景雑音において、ソース分離とソースローカライゼーションの両方の最先端性能を示す。
- 参考スコア(独自算出の注目度): 18.879736746806586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a multi-microphone recording of an unknown number of speakers talking
concurrently, we simultaneously localize the sources and separate the
individual speakers. At the core of our method is a deep network, in the
waveform domain, which isolates sources within an angular region $\theta \pm
w/2$, given an angle of interest $\theta$ and angular window size $w$. By
exponentially decreasing $w$, we can perform a binary search to localize and
separate all sources in logarithmic time. Our algorithm allows for an arbitrary
number of potentially moving speakers at test time, including more speakers
than seen during training. Experiments demonstrate state-of-the-art performance
for both source separation and source localization, particularly in high levels
of background noise.
- Abstract(参考訳): 未知数の話者が同時に話しているマルチマイクロホン記録が与えられた場合,音源のローカライズと個々の話者の分離を同時に行う。
我々の手法のコアとなるのは、波形領域における深いネットワークであり、興味の角度が$\theta$とangular window sizeが$w$であることから、角領域内のソースを$\theta \pm w/2$で分離する。
w$を指数関数的に減少させることで、対数時間ですべてのソースをローカライズし分離するバイナリ検索を行うことができる。
我々のアルゴリズムは、トレーニング中に見るよりも多くの話者を含む、テスト時に潜在的に動く話者を任意に数えることを可能にする。
実験は、特に高レベルの背景雑音において、ソース分離とソースローカライゼーションの両方の最先端性能を示す。
関連論文リスト
- UNSSOR: Unsupervised Neural Speech Separation by Leveraging
Over-determined Training Mixtures [60.879679764741624]
残響状態においては、各マイクは異なる場所で複数の話者の混合信号を取得する。
我々は、$textbfu$nsupervised $textbfn$euralのアルゴリズムUNSSORを提案する。
この損失は、教師なし話者の分離を促進することが示される。
論文 参考訳(メタデータ) (2023-05-31T17:28:02Z) - Audio-Visual Grouping Network for Sound Localization from Mixtures [30.756247389435803]
従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。
入力オーディオと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習できる新しい音声視覚グループネットワークであるAVGNを提案する。
既存のマルチソース手法と比較して,我々の新しいフレームワークはフレキシブルな複数の音源をローカライズし,個々の音源に対してカテゴリ対応の音響視覚表現をアンタングル化することができる。
論文 参考訳(メタデータ) (2023-03-29T22:58:55Z) - SepIt: Approaching a Single Channel Speech Separation Bound [99.19786288094596]
我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2022-05-24T05:40:36Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Many-Speakers Single Channel Speech Separation with Optimal Permutation
Training [91.22679787578438]
我々は、$O(C3)$時間の複雑さで訓練するためにハンガリーのアルゴリズムを使用する置換不変トレーニングを提示します。
私たちのアプローチは、最大$ 20$スピーカーを分離し、大きな$ C$の以前の結果を幅広いマージンで改善します。
論文 参考訳(メタデータ) (2021-04-18T20:56:12Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Time-Domain Speech Extraction with Spatial Information and Multi Speaker
Conditioning Mechanism [27.19635746008699]
混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。
2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
論文 参考訳(メタデータ) (2021-02-07T10:11:49Z) - Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T12:59:40Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。