論文の概要: End-to-End Single-Channel Speaker-Turn Aware Conversational Speech
Translation
- arxiv url: http://arxiv.org/abs/2311.00697v1
- Date: Wed, 1 Nov 2023 17:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 12:43:16.467533
- Title: End-to-End Single-Channel Speaker-Turn Aware Conversational Speech
Translation
- Title(参考訳): 終端から終端までの単一チャンネル話者-Turn Aware Conversational Speech Translation
- Authors: Juan Zuluaga-Gomez, Zhaocheng Huang, Xing Niu, Rohit Paturi,
Sundararajan Srinivasan, Prashant Mathur, Brian Thompson, Marcello Federico
- Abstract要約: エンド・ツー・エンドおよびマルチタスク・トレーニングモデルを用いて、単一チャンネルのマルチ話者会話STに取り組む。
Speaker-Turn Aware Conversational Speech Translationは、音声認識、音声翻訳、話者のターン検出を組み合わせる。
本研究では,本モデルがマルチスピーカ条件で参照システムより優れ,単一スピーカ条件で同等の性能が得られることを示す。
- 参考スコア(独自算出の注目度): 23.895122319920997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional speech-to-text translation (ST) systems are trained on
single-speaker utterances, and they may not generalize to real-life scenarios
where the audio contains conversations by multiple speakers. In this paper, we
tackle single-channel multi-speaker conversational ST with an end-to-end and
multi-task training model, named Speaker-Turn Aware Conversational Speech
Translation, that combines automatic speech recognition, speech translation and
speaker turn detection using special tokens in a serialized labeling format. We
run experiments on the Fisher-CALLHOME corpus, which we adapted by merging the
two single-speaker channels into one multi-speaker channel, thus representing
the more realistic and challenging scenario with multi-speaker turns and
cross-talk. Experimental results across single- and multi-speaker conditions
and against conventional ST systems, show that our model outperforms the
reference systems on the multi-speaker condition, while attaining comparable
performance on the single-speaker condition. We release scripts for data
processing and model training.
- Abstract(参考訳): 従来の音声対テキスト翻訳(st)システムは単一話者発話で訓練されており、音声が複数の話者による会話を含む現実のシナリオに一般化することはない。
本稿では,音声の自動音声認識,音声認識,音声翻訳,話者回転検出を連続ラベリング形式における特殊トークンを用いて組み合わせた,エンドツーエンド・マルチタスク学習モデルである「話者-ターン対応会話音声翻訳」を提案する。
2つの単一スピーカチャネルを1つのマルチスピーカチャネルにマージすることで、マルチスピーカのターンとクロストークによるより現実的で困難なシナリオを表現したFisher-CallHOMEコーパスの実験を行った。
単一話者および複数話者条件および従来のstシステムに対する実験結果から,本モデルは単一話者条件において同等の性能を得られつつ,複数話者条件における参照システムよりも優れた性能を示す。
データ処理とモデルトレーニングのためのスクリプトをリリースします。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - TOGGL: Transcribing Overlapping Speech with Staggered Labeling [5.088540556965433]
複数話者の音声を同時に書き起こすモデルを提案する。
提案手法は,2話者データのみを訓練しても,2話者以上を一般化する。
論文 参考訳(メタデータ) (2024-08-12T20:19:27Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。