論文の概要: Streaming Simultaneous Speech Translation with Augmented Memory
Transformer
- arxiv url: http://arxiv.org/abs/2011.00033v1
- Date: Fri, 30 Oct 2020 18:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 16:55:13.001136
- Title: Streaming Simultaneous Speech Translation with Augmented Memory
Transformer
- Title(参考訳): Augmented Memory Transformer を用いた同時音声翻訳
- Authors: Xutai Ma, Yongqiang Wang, Mohammad Javad Dousti, Philipp Koehn, Juan
Pino
- Abstract要約: トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
- 参考スコア(独自算出の注目度): 29.248366441276662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have achieved state-of-the-art performance on speech
translation tasks. However, the model architecture is not efficient enough for
streaming scenarios since self-attention is computed over an entire input
sequence and the computational cost grows quadratically with the length of the
input sequence. Nevertheless, most of the previous work on simultaneous speech
translation, the task of generating translations from partial audio input,
ignores the time spent in generating the translation when analyzing the
latency. With this assumption, a system may have good latency quality
trade-offs but be inapplicable in real-time scenarios. In this paper, we focus
on the task of streaming simultaneous speech translation, where the systems are
not only capable of translating with partial input but are also able to handle
very long or continuous input. We propose an end-to-end transformer-based
sequence-to-sequence model, equipped with an augmented memory transformer
encoder, which has shown great success on the streaming automatic speech
recognition task with hybrid or transducer-based models. We conduct an
empirical evaluation of the proposed model on segment, context and memory sizes
and we compare our approach to a transformer with a unidirectional mask.
- Abstract(参考訳): トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
しかし、入力シーケンス全体にわたって自己注意が計算され、入力シーケンスの長さとともに計算コストが2次的に増加するため、ストリーミングシナリオではモデルアーキテクチャは十分効率的ではない。
それにもかかわらず、部分的な音声入力から翻訳を生成するタスクである同時音声翻訳に関するこれまでの作業のほとんどは、レイテンシを分析する際に翻訳生成に要する時間を無視している。
この仮定では、システムは優れたレイテンシ品質のトレードオフを持つかもしれないが、リアルタイムシナリオでは適用できない。
本稿では,部分的な入力で翻訳できるだけでなく,非常に長いあるいは連続的な入力を処理できるシステムである,同時音声翻訳のタスクに焦点を当てる。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
提案モデルのセグメント,コンテキスト,メモリサイズについて経験的評価を行い,一方向マスクとトランスフォーマーとの比較を行った。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - Learning to Count Words in Fluent Speech enables Online Speech
Recognition [10.74796391075403]
本稿では,変換器を用いたオンライン音声認識システムであるTarisを紹介する。
LRS2、LibriSpeech、Aishell-1データセットで実施された実験では、オンラインシステムは5セグメントの動的アルゴリズム遅延を持つ場合、オフラインシステムと同等に動作することが示された。
論文 参考訳(メタデータ) (2020-06-08T20:49:39Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。