論文の概要: Unified Autoregressive Modeling for Joint End-to-End Multi-Talker
Overlapped Speech Recognition and Speaker Attribute Estimation
- arxiv url: http://arxiv.org/abs/2107.01549v1
- Date: Sun, 4 Jul 2021 05:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:50:02.496594
- Title: Unified Autoregressive Modeling for Joint End-to-End Multi-Talker
Overlapped Speech Recognition and Speaker Attribute Estimation
- Title(参考訳): 複数話者の重複音声認識と話者属性推定のための統一自己回帰モデル
- Authors: Ryo Masumura, Daiki Okamura, Naoki Makishima, Mana Ihori, Akihiko
Takashima, Tomohiro Tanaka, Shota Orihashi
- Abstract要約: 本稿では,ASR(Automatic Speech Recognition)システムを用いた単一チャンネルマルチストーカーのモデリング手法を提案する。
ASRと話者属性推定を重畳した連立エンドツーエンドマルチストーカーに対する統合自己回帰モデルを提案する。
- 参考スコア(独自算出の注目度): 26.911867847630187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel modeling method for single-channel
multi-talker overlapped automatic speech recognition (ASR) systems. Fully
neural network based end-to-end models have dramatically improved the
performance of multi-taker overlapped ASR tasks. One promising approach for
end-to-end modeling is autoregressive modeling with serialized output training
in which transcriptions of multiple speakers are recursively generated one
after another. This enables us to naturally capture relationships between
speakers. However, the conventional modeling method cannot explicitly take into
account the speaker attributes of individual utterances such as gender and age
information. In fact, the performance deteriorates when each speaker is the
same gender or is close in age. To address this problem, we propose unified
autoregressive modeling for joint end-to-end multi-talker overlapped ASR and
speaker attribute estimation. Our key idea is to handle gender and age
estimation tasks within the unified autoregressive modeling. In the proposed
method, transformer-based autoregressive model recursively generates not only
textual tokens but also attribute tokens of each speaker. This enables us to
effectively utilize speaker attributes for improving multi-talker overlapped
ASR. Experiments on Japanese multi-talker overlapped ASR tasks demonstrate the
effectiveness of the proposed method.
- Abstract(参考訳): 本稿では,ASR(Automatic Speech Recognition)システムを用いた単一チャンネルマルチストーカーのモデリング手法を提案する。
完全なニューラルネットワークベースのエンドツーエンドモデルにより、マルチテカ重なりのASRタスクのパフォーマンスが劇的に向上した。
エンドツーエンドモデリングの有望なアプローチの一つは、複数の話者の転写を逐次生成するシリアライズされた出力トレーニングによる自己回帰モデリングである。
これにより、話者間の関係を自然に捉えることができます。
しかし、従来のモデリング手法では、性別や年齢などの個々の発話の話者属性を明示的に考慮することはできない。
実際、それぞれの話者が同じ性別である場合や年齢が近い場合、パフォーマンスは低下する。
そこで本研究では,asrと話者属性の重複推定のための統合的自己回帰モデルを提案する。
我々のキーとなる考え方は、統合された自己回帰モデルにおける性別と年齢推定タスクを扱うことである。
提案手法では,トランスフォーマティブ・オートレグレッシブ・モデルは,テキストトークンだけでなく,各話者の属性トークンも再帰的に生成する。
これにより、話者属性を効果的に活用し、重なり合うASRを改善することができる。
日本語マルチトーカ重畳asrタスクの実験により,提案手法の有効性が示された。
関連論文リスト
- From Modular to End-to-End Speaker Diarization [3.079020586262228]
本稿では、VBxとして知られるxベクトル(ニューラルネットワークで得られた話者埋め込み)をクラスタリングするために使用されるベイズ隠れマルコフモデルに基づくシステムについて述べる。
本稿では,話者の旋回や重なり合いの観点から,実際の会話に類似した合成データを生成する手法について述べる。
本稿では,この「模擬会話」生成手法が,一般的なEENDのトレーニングにおいて,従来提案されていた「模擬混合」生成方法よりも優れた性能を実現する方法を示す。
論文 参考訳(メタデータ) (2024-06-27T15:09:39Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - Unified Modeling of Multi-Talker Overlapped Speech Recognition and
Diarization with a Sidecar Separator [42.8787280791491]
複数話者の重複した音声は,音声認識とダイアリゼーションにおいて重要な課題となる。
本稿では,単一話者の自動音声認識システムをマルチ話者に変換するコスト効率のよい手法を提案する。
ダイアリゼーションブランチをSidecarに組み込むことで、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを行う。
論文 参考訳(メタデータ) (2023-05-25T17:18:37Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Simulating realistic speech overlaps improves multi-talker ASR [36.39193360559079]
本稿では,複数話者の重なり合う音声を現実的な音声重なりでシミュレートする改良手法を提案する。
この表現により、N-gramのような統計言語モデルに基づいて、実際の会話から重なり合う音声パターンを学習することができる。
実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。
論文 参考訳(メタデータ) (2022-10-27T18:29:39Z) - Automatic Evaluation of Speaker Similarity [0.0]
本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T11:23:16Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。