Fugu-MT 論文翻訳(概要): Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism

論文の概要: Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism

arxiv url: http://arxiv.org/abs/2102.03762v1
Date: Sun, 7 Feb 2021 10:11:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-09 15:30:01.646909
Title: Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism
Title（参考訳）: 空間情報とマルチスピーカコンディショニング機構を用いた時間領域音声抽出
Authors: Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker
Abstract要約: 混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。 2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
参考スコア（独自算出の注目度）: 27.19635746008699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a novel multi-channel speech extraction system to simultaneously extract multiple clean individual sources from a mixture in noisy and reverberant environments. The proposed method is built on an improved multi-channel time-domain speech separation network which employs speaker embeddings to identify and extract multiple targets without label permutation ambiguity. To efficiently inform the speaker information to the extraction model, we propose a new speaker conditioning mechanism by designing an additional speaker branch for receiving external speaker embeddings. Experiments on 2-channel WHAMR! data show that the proposed system improves by 9% relative the source separation performance over a strong multi-channel baseline, and it increases the speech recognition accuracy by more than 16% relative over the same baseline.
Abstract（参考訳）: 本稿では,雑音環境と残響環境の混合から複数のクリーンな個人源を同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。提案手法は, 複数チャンネル時間領域音声分離ネットワークを改良し, 話者埋め込みを用いて, ラベル置換のあいまいさを伴わない複数のターゲットを同定・抽出する。抽出モデルに話者情報を効率的に通知するために,外部話者埋め込みを受信するための追加話者分岐を設計し,新しい話者条件付け機構を提案する。 2チャンネルwhamrの実験! 提案手法は,複数チャネルのベースラインに対して,9%の精度で音源分離性能が向上し,同一ベースラインに対して音声認識精度が16%以上向上することを示す。

関連論文リスト

Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement [17.645026729525462]
混合音声信号から対象話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
論文参考訳（メタデータ） (2024-09-02T16:11:12Z)
End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder and Input Feature Analysis [0.0]
本稿では,Conformerベースのエンコーダと多フレームのクロスチャネルアテンションと,話者対応のTransformerベースのデコーダを組み合わせた,エンドツーエンドのマルチチャネル話者分散自動音声認識(MC-SA-ASR)システムを提案する。
論文参考訳（メタデータ） (2023-10-16T06:40:18Z)
Multi-Dimensional and Multi-Scale Modeling for Speech Separation Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer) 新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文参考訳（メタデータ） (2023-03-07T08:53:20Z)
MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文参考訳（メタデータ） (2022-12-07T01:52:40Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文参考訳（メタデータ） (2021-07-14T05:38:48Z)
Single channel voice separation for unknown number of speakers under reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文参考訳（メタデータ） (2020-11-04T14:59:14Z)
Multi-talker ASR for an unknown number of sources: Joint training of source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。実験の結果,精度,音源分離,音声認識において有望な性能を示した。我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文参考訳（メタデータ） (2020-06-04T11:25:50Z)
Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文参考訳（メタデータ） (2020-05-18T10:31:19Z)
Supervised Speaker Embedding De-Mixing in Two-Speaker Environment [37.27421131374047]
音源分離のような信号空間で2つの話者信号を分離する代わりに,話者埋め込み型デミックス方式を提案する。提案手法は、埋め込み空間における2つの話者信号と異なる話者特性を分離する。
論文参考訳（メタデータ） (2020-01-14T20:13:43Z)
Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-01-14T20:03:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。