論文の概要: Learning When to Speak: Latency and Quality Trade-offs for Simultaneous
Speech-to-Speech Translation with Offline Models
- arxiv url: http://arxiv.org/abs/2306.01201v1
- Date: Thu, 1 Jun 2023 23:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:23:14.677992
- Title: Learning When to Speak: Latency and Quality Trade-offs for Simultaneous
Speech-to-Speech Translation with Offline Models
- Title(参考訳): 発話の学習:オフラインモデルを用いた同時音声合成のためのレイテンシと品質トレードオフ
- Authors: Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan
McGuire, Victor Zordan
- Abstract要約: 実世界のユースケースを対象とした同時S2STシステムを提案する。
出力のレイテンシを動的に調整するための調整可能なパラメータを用いて,57言語から英語への翻訳を支援する。
これらのポリシーは,Greedy(wait-$k$)ベースライン上でのレイテンシの増加を最小限に抑え,オフラインレベルの精度を実現する。
- 参考スコア(独自算出の注目度): 18.34485337755259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in speech-to-speech translation (S2ST) has focused primarily on
offline settings, where the full input utterance is available before any output
is given. This, however, is not reasonable in many real-world scenarios. In
latency-sensitive applications, rather than waiting for the full utterance,
translations should be spoken as soon as the information in the input is
present. In this work, we introduce a system for simultaneous S2ST targeting
real-world use cases. Our system supports translation from 57 languages to
English with tunable parameters for dynamically adjusting the latency of the
output -- including four policies for determining when to speak an output
sequence. We show that these policies achieve offline-level accuracy with
minimal increases in latency over a Greedy (wait-$k$) baseline. We open-source
our evaluation code and interactive test script to aid future SimulS2ST
research and application development.
- Abstract(参考訳): 音声から音声への翻訳(s2st)における最近の研究は、オフラインの設定に重点を置いている。
しかし、これは多くの現実世界のシナリオでは妥当ではない。
完全な発話を待つのではなく、レイテンシに敏感なアプリケーションでは、入力の情報が存在するとすぐに翻訳が話される。
本研究では,実世界のユースケースを対象とした同時S2STシステムを提案する。
我々のシステムは、出力シーケンスをいつ話すかを決定する4つのポリシーを含む、出力のレイテンシを動的に調整可能なパラメータで57言語から英語への翻訳をサポートする。
これらのポリシーは,Greedy(wait-$k$)ベースライン上でのレイテンシの増加を最小限に抑え,オフラインレベルの精度を実現する。
我々は、将来のSimulS2ST研究とアプリケーション開発を支援するために、評価コードとインタラクティブなテストスクリプトをオープンソース化する。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems [7.326036800127981]
テキストと音声の両方を処理するマルチモーダル言語モデルは、音声対話システムに応用できる可能性がある。
音声応答を生成するには、事前に書かれた応答を生成する必要があり、音声シーケンスはテキストシーケンスよりもかなり長い。
本研究では,テキストと音声の並列生成を支援するために,言語モデルの入力シーケンスと出力シーケンスを拡張することで,これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-18T09:23:54Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Towards Real-World Streaming Speech Translation for Code-Switched Speech [7.81154319203032]
コードスイッチング(CS)は通信において一般的な現象であり、多くの自然言語処理(NLP)環境では困難である。
我々は、現実のCS音声翻訳に欠かせない2つの領域、すなわちストリーミング設定と第3言語への翻訳に焦点を当てた。
論文 参考訳(メタデータ) (2023-10-19T11:15:02Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。