論文の概要: Low Latency ASR for Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2003.09891v1
- Date: Sun, 22 Mar 2020 13:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:51:17.882711
- Title: Low Latency ASR for Simultaneous Speech Translation
- Title(参考訳): 同時音声翻訳のための低レイテンシASR
- Authors: Thai Son Nguyen, Jan Niehues, Eunah Cho, Thanh-Le Ha, Kevin Kilgour,
Markus Muller, Matthias Sperber, Sebastian Stueker, Alex Waibel
- Abstract要約: 我々は,音声認識と音声翻訳モジュールの両コンポーネントのレイテンシを低減するために,いくつかの手法を開発した。
ストリーム復号と動的出力更新のためのプロトコルを用いて,ランオン復号とストリーム復号時の安定部分仮説を同定する手法を組み合わせた。
この組み合わせは単語レベルでの遅延を減らし、単語は最終であり、将来は18.1sから1.1sまで性能を犠牲にすることなく更新されることはない。
- 参考スコア(独自算出の注目度): 27.213294097841853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User studies have shown that reducing the latency of our simultaneous lecture
translation system should be the most important goal. We therefore have worked
on several techniques for reducing the latency for both components, the
automatic speech recognition and the speech translation module. Since the
commonly used commitment latency is not appropriate in our case of continuous
stream decoding, we focused on word latency. We used it to analyze the
performance of our current system and to identify opportunities for
improvements. In order to minimize the latency we combined run-on decoding with
a technique for identifying stable partial hypotheses when stream decoding and
a protocol for dynamic output update that allows to revise the most recent
parts of the transcription. This combination reduces the latency at word level,
where the words are final and will never be updated again in the future, from
18.1s to 1.1s without sacrificing performance in terms of word error rate.
- Abstract(参考訳): ユーザ調査の結果,同時講義翻訳システムのレイテンシ低減が最も重要な目標であることが示唆された。
そこで我々は,自動音声認識や音声翻訳モジュールなど,両コンポーネントの待ち時間を短縮するためのいくつかの手法に取り組んでいる。
継続的なストリームデコーディングでは、一般的に使用されるコミットメントレイテンシが適切ではないため、ワードレイテンシに重点を置いています。
現在のシステムの性能を分析し、改善の機会を特定するために使用しました。
遅延を最小限に抑えるため、我々はランオン復号法とストリーム復号時の安定部分仮説を同定する手法と、直近の書き起こし部分の修正を可能にする動的出力更新のためのプロトコルを組み合わせた。
この組み合わせは単語レベルでの遅延を減らし、単語は最終であり、将来は18.1sから1.1sに更新されない。
関連論文リスト
- A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Average Token Delay: A Duration-aware Latency Metric for Simultaneous
Translation [16.954965417930254]
我々は,emphAverage Token Delay (ATD) と呼ばれる同時翻訳のための新しい遅延評価指標を提案する。
Ear-Voice Span(EVS)に基づくユーザ側レイテンシのシミュレーションによる効果の実証を行った。
論文 参考訳(メタデータ) (2023-11-24T08:53:52Z) - Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff [49.75167556773752]
ブロックワイズ・セルフアテンショナル・エンコーダ・モデル(英語版)は、同時音声翻訳において有望なエンドツーエンドのアプローチとして登場した。
本稿では、局所的な合意や品質レイテンシ制御のための$nのポリシーを組み込んだインクリメンタルなブロックワイドビームサーチを提案する。
論文 参考訳(メタデータ) (2023-09-20T14:59:06Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Average Token Delay: A Latency Metric for Simultaneous Translation [21.142539715996673]
Average Token Delay (ATD) と呼ばれる新しい遅延評価指標を提案する。
シミュレーション例を用いてATDの利点を考察するとともに,ATDと平均ラギングの違いと同時翻訳実験について検討する。
論文 参考訳(メタデータ) (2022-11-22T06:45:13Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-05-22T13:42:54Z) - Minimum Latency Training Strategies for Streaming Sequence-to-Sequence
ASR [44.229256049718316]
線形時間復号複雑性を伴うオンライン音声認識を実現するために,ストリームアテンションに基づくシーケンス・ツー・シーケンス(S2S)モデルが提案されている。
これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
本稿では,ハイブリッドモデルから抽出した外部ハードアライメントを活用することで,トレーニング中のいくつかの戦略を提案する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
論文 参考訳(メタデータ) (2020-04-10T12:24:49Z) - Scaling Up Online Speech Recognition Using ConvNets [33.75588539732141]
我々は、TDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムを設計する。
我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。
このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。
論文 参考訳(メタデータ) (2020-01-27T12:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。