論文の概要: Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR
- arxiv url: http://arxiv.org/abs/2203.00232v1
- Date: Tue, 1 Mar 2022 05:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:50:36.025519
- Title: Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR
- Title(参考訳): マルチスピーカエンドツーエンドASRのための拡張グラフ時間分類
- Authors: Xuankai Chang, Niko Moritz, Takaaki Hori, Shinji Watanabe, Jonathan Le
Roux
- Abstract要約: ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
- 参考スコア(独自算出の注目度): 77.82653227783447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph-based temporal classification (GTC), a generalized form of the
connectionist temporal classification loss, was recently proposed to improve
automatic speech recognition (ASR) systems using graph-based supervision. For
example, GTC was first used to encode an N-best list of pseudo-label sequences
into a graph for semi-supervised learning. In this paper, we propose an
extension of GTC to model the posteriors of both labels and label transitions
by a neural network, which can be applied to a wider range of tasks. As an
example application, we use the extended GTC (GTC-e) for the multi-speaker
speech recognition task. The transcriptions and speaker information of
multi-speaker speech are represented by a graph, where the speaker information
is associated with the transitions and ASR outputs with the nodes. Using GTC-e,
multi-speaker ASR modelling becomes very similar to single-speaker ASR
modeling, in that tokens by multiple speakers are recognized as a single merged
sequence in chronological order. For evaluation, we perform experiments on a
simulated multi-speaker speech dataset derived from LibriSpeech, obtaining
promising results with performance close to classical benchmarks for the task.
- Abstract(参考訳): グラフに基づく時間的分類法(GTC)は,近年,グラフに基づく監視を用いて自動音声認識(ASR)システムを改善するために提案されている。
例えば、GTCは最初、擬ラベル配列のN-bestリストを半教師付き学習用のグラフにエンコードするために使われた。
本稿では,より広い範囲のタスクに適用可能なニューラルネットワークを用いて,ラベルとラベル遷移の両方の後方をモデル化するためのgtcの拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
マルチスピーカ音声の書き起こし及び話者情報はグラフで表現され、話者情報は遷移に関連付けられ、ASRはノードに出力される。
GTC-eを用いて、複数話者によるトークンは時系列順に単一のマージシーケンスとして認識されるため、マルチスピーカーASRモデリングは単一話者ASRモデリングと非常によく似ている。
評価のために,librispeechから派生したマルチスピーカー音声データセットのシミュレーション実験を行い,タスクの古典的なベンチマークに近い性能で有望な結果を得た。
関連論文リスト
- Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。