論文の概要: Streaming Models for Joint Speech Recognition and Translation
- arxiv url: http://arxiv.org/abs/2101.09149v1
- Date: Fri, 22 Jan 2021 15:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 22:55:28.623287
- Title: Streaming Models for Joint Speech Recognition and Translation
- Title(参考訳): 共同音声認識と翻訳のためのストリーミングモデル
- Authors: Orion Weller and Matthias Sperber and Christian Gollan and Joris
Kluivers
- Abstract要約: 再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
- 参考スコア(独自算出の注目度): 11.657994715914748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using end-to-end models for speech translation (ST) has increasingly been the
focus of the ST community. These models condense the previously cascaded
systems by directly converting sound waves into translated text. However,
cascaded models have the advantage of including automatic speech recognition
output, useful for a variety of practical ST systems that often display
transcripts to the user alongside the translations. To bridge this gap, recent
work has shown initial progress into the feasibility for end-to-end models to
produce both of these outputs. However, all previous work has only looked at
this problem from the consecutive perspective, leaving uncertainty on whether
these approaches are effective in the more challenging streaming setting. We
develop an end-to-end streaming ST model based on a re-translation approach and
compare against standard cascading approaches. We also introduce a novel
inference method for the joint case, interleaving both transcript and
translation in generation and removing the need to use separate decoders. Our
evaluation across a range of metrics capturing accuracy, latency, and
consistency shows that our end-to-end models are statistically similar to
cascading models, while having half the number of parameters. We also find that
both systems provide strong translation quality at low latency, keeping 99% of
consecutive quality at a lag of just under a second.
- Abstract(参考訳): 音声翻訳(ST)のエンドツーエンドモデルの使用がSTコミュニティの焦点となっている。
これらのモデルは、音波を直接翻訳テキストに変換することによって、以前にカスケードされたシステムを凝縮する。
しかし、カスケードモデルには自動音声認識出力を含める利点があり、翻訳と共にユーザに対してしばしば書き起こしを表示する様々な実用的なSTシステムに有用である。
このギャップを埋めるために、最近の研究は、両方の出力を生成するエンド・ツー・エンド・モデルの実現可能性に関する最初の進歩を示している。
しかしながら、以前のすべての作業は、この問題を連続的な観点からのみ検討しており、これらのアプローチがより困難なストリーミング環境において有効であるかどうかに不確実性を残している。
我々は,再翻訳方式に基づくエンドツーエンドストリーミングstモデルを開発し,標準カスケード方式と比較する。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
我々の評価は、精度、レイテンシ、一貫性を計測する様々な指標において、我々のエンドツーエンドモデルは統計的にカスケードモデルに似ており、パラメータの数が半分であることを示している。
また、両方のシステムが低レイテンシで強力な翻訳品質を提供し、連続品質の99%を1秒未満の遅延で保持していることも分かりました。
関連論文リスト
- Variational prompt tuning improves generalization of vision-language
models [72.67368357421938]
当社のアプローチは,標準および条件付きプロンプト学習フレームワークにシームレスに統合されていることを示す。
提案手法は,CoCoOpを標準ベンチマークで平均1.6%の精度で上回っている。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z) - Tight Integrated End-to-End Training for Cascaded Speech Translation [40.76367623739673]
カスケード音声翻訳モデルは、離散的および非微分可能転写に依存している。
直接音声翻訳は、誤りの伝播を避けるための代替手法である。
この研究は、カスケードコンポーネント全体を1つのエンドツーエンドのトレーニング可能なモデルにまとめることの可能性を探る。
論文 参考訳(メタデータ) (2020-11-24T15:43:49Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Consistent Transcription and Translation of Speech [13.652411093089947]
音声を共同で書き起こし,翻訳する作業について検討する。
書き起こしと翻訳の精度は重要であるが、高精度なシステムでさえ、両方の出力の不整合に悩まされることがある。
直接モデルは関節転写/翻訳タスクには適していないが, 結合推論処理を特徴とするエンドツーエンドモデルは, 強い整合性を実現することができる。
論文 参考訳(メタデータ) (2020-07-24T19:17:26Z) - Phone Features Improve Speech Translation [69.54616570679343]
音声翻訳の終末モデル(ST)はより緊密にカップル音声認識(ASR)と機械翻訳(MT)を行う
カスケードモデルとエンド・ツー・エンドモデルを高,中,低リソース条件で比較し,カスケードがより強いベースラインを維持していることを示す。
これらの機能は両方のアーキテクチャを改善し、エンド・ツー・エンドのモデルとカスケードのギャップを埋め、これまでの学術的成果を最大9BLEUで上回ります。
論文 参考訳(メタデータ) (2020-05-27T22:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。