論文の概要: SepIt: Approaching a Single Channel Speech Separation Bound
- arxiv url: http://arxiv.org/abs/2205.11801v4
- Date: Sun, 21 May 2023 09:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 06:13:39.546874
- Title: SepIt: Approaching a Single Channel Speech Separation Bound
- Title(参考訳): SepIt: 単一チャンネル音声分離境界へのアプローチ
- Authors: Shahar Lutati, Eliya Nachmani, Lior Wolf
- Abstract要約: 我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
- 参考スコア(独自算出の注目度): 99.19786288094596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an upper bound for the Single Channel Speech Separation task,
which is based on an assumption regarding the nature of short segments of
speech. Using the bound, we are able to show that while the recent methods have
made significant progress for a few speakers, there is room for improvement for
five and ten speakers. We then introduce a Deep neural network, SepIt, that
iteratively improves the different speakers' estimation. At test time, SpeIt
has a varying number of iterations per test sample, based on a mutual
information criterion that arises from our analysis. In an extensive set of
experiments, SepIt outperforms the state-of-the-art neural networks for 2, 3,
5, and 10 speakers.
- Abstract(参考訳): 本稿では,音声の短いセグメントの性質に関する仮定に基づく,単一チャネル音声分離タスクの上限を提案する。
このバウンドを用いることで,最近の手法が少数の話者に対して大きな進歩を遂げた一方で,5人と10人の話者には改善の余地があることが分かる。
次に,異なる話者の推定を反復的に改善する深層ニューラルネットワークsepitを導入する。
テスト時に、SpeItは、我々の分析から生じる相互情報基準に基づいて、テストサンプル毎のイテレーション数が異なる。
広範な実験において、sepitは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークを上回る。
関連論文リスト
- Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and
Sound Event Detection [0.0]
私たちは、あなただけに耳を傾ける(YOHO)という新しいアプローチを提示します。
フレームベース分類の代わりに音響境界の検出を回帰問題に変換する。
YOHOは、最先端の畳み込みリカレントニューラルネットワークよりも高いF測定値と低いエラー率を得た。
論文 参考訳(メタデータ) (2021-09-01T12:50:16Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - HarperValleyBank: A Domain-Specific Spoken Dialog Corpus [7.331287001215395]
HarperValleyBankは、パブリックドメインのダイアログコーパスである。
このデータは単純な消費者銀行の対話をシミュレートし、1,446人の人間と会話から約23時間の音声を含む。
論文 参考訳(メタデータ) (2020-10-26T22:16:52Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。