論文の概要: Multi-Channel End-to-End Neural Diarization with Distributed Microphones
- arxiv url: http://arxiv.org/abs/2110.04694v1
- Date: Sun, 10 Oct 2021 03:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:21:00.346042
- Title: Multi-Channel End-to-End Neural Diarization with Distributed Microphones
- Title(参考訳): 分散マイクロホンを用いたマルチチャネルエンドツーエンドニューラルネットワークダイアリゼーション
- Authors: Shota Horiguchi, Yuki Takashima, Paola Garcia, Shinji Watanabe, Yohei
Kawaguchi
- Abstract要約: EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
- 参考スコア(独自算出の注目度): 53.99406868339701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress on end-to-end neural diarization (EEND) has enabled
overlap-aware speaker diarization with a single neural network. This paper
proposes to enhance EEND by using multi-channel signals from distributed
microphones. We replace Transformer encoders in EEND with two types of encoders
that process a multi-channel input: spatio-temporal and co-attention encoders.
Both are independent of the number and geometry of microphones and suitable for
distributed microphone settings. We also propose a model adaptation method
using only single-channel recordings. With simulated and real-recorded
datasets, we demonstrated that the proposed method outperformed conventional
EEND when a multi-channel input was given while maintaining comparable
performance with a single-channel input. We also showed that the proposed
method performed well even when spatial information is inoperative given
multi-channel inputs, such as in hybrid meetings in which the utterances of
multiple remote participants are played back from the same loudspeaker.
- Abstract(参考訳): エンドツーエンドニューラルネットワークダイアリゼーション(eend)の最近の進歩により、単一のニューラルネットワークによる重複認識話者ダイアリゼーションが可能になった。
本稿では,分散マイクロホンからのマルチチャネル信号を用いてEENDを強化することを提案する。
我々は、eendのトランスフォーマエンコーダを、マルチチャネル入力を処理する2種類のエンコーダ(時空間エンコーダと共結合エンコーダ)に置き換える。
どちらもマイクロフォンの数と幾何には依存せず、分散マイクロホン設定に適している。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
シミュレーションおよび実記録データを用いて,提案手法はシングルチャネル入力と同等の性能を維持しつつマルチチャネル入力が与えられた場合,従来のEENDよりも優れた性能を示した。
また,同一のスピーカから複数の遠隔参加者の発話を再生するハイブリッドミーティングなどにおいて,複数チャンネルの入力に対して空間情報が不使用であっても,提案手法が良好に動作することを示した。
関連論文リスト
- End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder
and Input Feature Analysis [0.0]
本稿では,Conformerベースのエンコーダと多フレームのクロスチャネルアテンションと,話者対応のTransformerベースのデコーダを組み合わせた,エンドツーエンドのマルチチャネル話者分散自動音声認識(MC-SA-ASR)システムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:40:18Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware
Beamforming Network for Speech Separation [55.533789120204055]
混合信号のみを用いた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。
具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを推定する。
論文 参考訳(メタデータ) (2022-12-07T01:52:40Z) - Mutual Learning of Single- and Multi-Channel End-to-End Neural
Diarization [34.65357110940456]
本稿では、話者ダイアリゼーションに焦点を当て、上記の双方向知識伝達を交互に行うことを提案する。
単一チャネルとマルチチャネルの両方の入力を処理できるエンドツーエンドのニューラルダイアリゼーションモデルを導入する。
2つの話者データによる実験結果から,提案手法は単一話者と複数話者のダイアリゼーション性能を相互に向上することが示された。
論文 参考訳(メタデータ) (2022-10-07T11:03:32Z) - Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition [1.0276024900942875]
十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-10T11:03:43Z) - Model-Driven Deep Learning Based Channel Estimation and Feedback for
Millimeter-Wave Massive Hybrid MIMO Systems [61.78590389147475]
本稿では,ミリ波(mmWave)システムのモデル駆動深層学習(MDDL)に基づくチャネル推定とフィードバック方式を提案する。
無線周波数(RF)鎖の限られた数から高次元チャネルを推定するためのアップリンクパイロットオーバーヘッドを低減するために,位相シフトネットワークとチャネル推定器を自動エンコーダとして共同で訓練することを提案する。
MDDLに基づくチャネル推定とフィードバック方式は,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-22T13:34:53Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Neural Speech Separation Using Spatially Distributed Microphones [19.242927805448154]
本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクアレイの設定とは異なり、マイクの数や空間配置は事前に分かっていない。
音声認識実験の結果,提案手法はベースライン型マルチチャネル音声分離システムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-04-28T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。