論文の概要: Streaming Models for Joint Speech Recognition and Translation
- arxiv url: http://arxiv.org/abs/2101.09149v1
- Date: Fri, 22 Jan 2021 15:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 22:55:28.623287
- Title: Streaming Models for Joint Speech Recognition and Translation
- Title(参考訳): 共同音声認識と翻訳のためのストリーミングモデル
- Authors: Orion Weller and Matthias Sperber and Christian Gollan and Joris
Kluivers
- Abstract要約: 再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
- 参考スコア(独自算出の注目度): 11.657994715914748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using end-to-end models for speech translation (ST) has increasingly been the
focus of the ST community. These models condense the previously cascaded
systems by directly converting sound waves into translated text. However,
cascaded models have the advantage of including automatic speech recognition
output, useful for a variety of practical ST systems that often display
transcripts to the user alongside the translations. To bridge this gap, recent
work has shown initial progress into the feasibility for end-to-end models to
produce both of these outputs. However, all previous work has only looked at
this problem from the consecutive perspective, leaving uncertainty on whether
these approaches are effective in the more challenging streaming setting. We
develop an end-to-end streaming ST model based on a re-translation approach and
compare against standard cascading approaches. We also introduce a novel
inference method for the joint case, interleaving both transcript and
translation in generation and removing the need to use separate decoders. Our
evaluation across a range of metrics capturing accuracy, latency, and
consistency shows that our end-to-end models are statistically similar to
cascading models, while having half the number of parameters. We also find that
both systems provide strong translation quality at low latency, keeping 99% of
consecutive quality at a lag of just under a second.
- Abstract(参考訳): 音声翻訳(ST)のエンドツーエンドモデルの使用がSTコミュニティの焦点となっている。
これらのモデルは、音波を直接翻訳テキストに変換することによって、以前にカスケードされたシステムを凝縮する。
しかし、カスケードモデルには自動音声認識出力を含める利点があり、翻訳と共にユーザに対してしばしば書き起こしを表示する様々な実用的なSTシステムに有用である。
このギャップを埋めるために、最近の研究は、両方の出力を生成するエンド・ツー・エンド・モデルの実現可能性に関する最初の進歩を示している。
しかしながら、以前のすべての作業は、この問題を連続的な観点からのみ検討しており、これらのアプローチがより困難なストリーミング環境において有効であるかどうかに不確実性を残している。
我々は,再翻訳方式に基づくエンドツーエンドストリーミングstモデルを開発し,標準カスケード方式と比較する。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
我々の評価は、精度、レイテンシ、一貫性を計測する様々な指標において、我々のエンドツーエンドモデルは統計的にカスケードモデルに似ており、パラメータの数が半分であることを示している。
また、両方のシステムが低レイテンシで強力な翻訳品質を提供し、連続品質の99%を1秒未満の遅延で保持していることも分かりました。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff [49.75167556773752]
ブロックワイズ・セルフアテンショナル・エンコーダ・モデル(英語版)は、同時音声翻訳において有望なエンドツーエンドのアプローチとして登場した。
本稿では、局所的な合意や品質レイテンシ制御のための$nのポリシーを組み込んだインクリメンタルなブロックワイドビームサーチを提案する。
論文 参考訳(メタデータ) (2023-09-20T14:59:06Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z) - Consistent Transcription and Translation of Speech [13.652411093089947]
音声を共同で書き起こし,翻訳する作業について検討する。
書き起こしと翻訳の精度は重要であるが、高精度なシステムでさえ、両方の出力の不整合に悩まされることがある。
直接モデルは関節転写/翻訳タスクには適していないが, 結合推論処理を特徴とするエンドツーエンドモデルは, 強い整合性を実現することができる。
論文 参考訳(メタデータ) (2020-07-24T19:17:26Z) - Phone Features Improve Speech Translation [69.54616570679343]
音声翻訳の終末モデル(ST)はより緊密にカップル音声認識(ASR)と機械翻訳(MT)を行う
カスケードモデルとエンド・ツー・エンドモデルを高,中,低リソース条件で比較し,カスケードがより強いベースラインを維持していることを示す。
これらの機能は両方のアーキテクチャを改善し、エンド・ツー・エンドのモデルとカスケードのギャップを埋め、これまでの学術的成果を最大9BLEUで上回ります。
論文 参考訳(メタデータ) (2020-05-27T22:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。