論文の概要: VarArray: Array-Geometry-Agnostic Continuous Speech Separation
- arxiv url: http://arxiv.org/abs/2110.05745v1
- Date: Tue, 12 Oct 2021 05:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:07:43.091932
- Title: VarArray: Array-Geometry-Agnostic Continuous Speech Separation
- Title(参考訳): VarArray: アレー幾何学-非依存連続音声分離
- Authors: Takuya Yoshioka, Xiaofei Wang, Dongmei Wang, Min Tang, Zirun Zhu, Zhuo
Chen, Naoyuki Kanda
- Abstract要約: マイクロホンアレイを用いた連続音声分離は、自然な会話の書き起こしにおける音声重なり問題に対処する上で有望であることが示された。
本稿では,アレージオメトリーに依存しない音声分離ニューラルネットワークモデルであるVarArrayを提案する。
- 参考スコア(独自算出の注目度): 26.938313513582642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous speech separation using a microphone array was shown to be
promising in dealing with the speech overlap problem in natural conversation
transcription. This paper proposes VarArray, an array-geometry-agnostic speech
separation neural network model. The proposed model is applicable to any number
of microphones without retraining while leveraging the nonlinear correlation
between the input channels. The proposed method adapts different elements that
were proposed before separately, including transform-average-concatenate,
conformer speech separation, and inter-channel phase differences, and combines
them in an efficient and cohesive way. Large-scale evaluation was performed
with two real meeting transcription tasks by using a fully developed
transcription system requiring no prior knowledge such as reference
segmentations, which allowed us to measure the impact that the continuous
speech separation system could have in realistic settings. The proposed model
outperformed a previous approach to array-geometry-agnostic modeling for all of
the geometry configurations considered, achieving asclite-based
speaker-agnostic word error rates of 17.5% and 20.4% for the AMI development
and evaluation sets, respectively, in the end-to-end setting using no
ground-truth segmentations.
- Abstract(参考訳): マイクロホンアレイを用いた連続音声分離は、自然な会話の書き起こしにおける重なり問題に対処する上で有望であることがわかった。
本稿では,アレイジオメトリ非依存な音声分離ニューラルネットワークモデルであるvararrayを提案する。
提案手法は,入力チャネル間の非線形相関を生かしながら,任意の数のマイクロホンに適用可能である。
提案手法は, 変換平均結合, コンフォメータ音声分離, チャネル間位相差など, 従来提案されていた異なる要素を分離し, 効率よく結合的に組み合わせる。
参照セグメンテーションなどの事前知識を必要としない完全に発達した転写システムを用いて,2つの実際の会議転写タスクを用いて大規模評価を行った。
提案手法は,全ての幾何学的構成を考慮した配列幾何学非依存モデルにおいて,AMI開発と評価セットにおいて,それぞれ17.5%,20.4%のアスクライトに基づく話者非依存語誤り率を達成し,また,接地構造セグメンテーションを用いないエンド・ツー・エンド設定において,従来の手法よりも優れていた。
関連論文リスト
- VarArray Meets t-SOT: Advancing the State of the Art of Streaming
Distant Conversational Speech Recognition [36.580955189182404]
本稿では,任意の形状のマイクロホンアレイによってキャプチャされたマルチストーカー重畳音声のための新しいストリーミング自動音声認識(ASR)フレームワークを提案する。
我々のフレームワークであるt-SOT-VAは、配列幾何学非依存連続音声分離(VarArray)とトークンレベルシリアライズ出力トレーニング(t-SOT)に基づくストリーミングマルチストーカーASRという、独立に開発された2つの技術を活用している。
マルチディスタントにおけるAMI開発と評価セットに対して,最先端ワードエラー率13.7%,15.5%を実現している。
論文 参考訳(メタデータ) (2022-09-12T01:22:04Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。