論文の概要: Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff
- arxiv url: http://arxiv.org/abs/2309.11379v1
- Date: Wed, 20 Sep 2023 14:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:37:26.548148
- Title: Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff
- Title(参考訳): 制御可能な品質-レイテンシトレードオフを持つ同時音声翻訳のためのインクリメンタルブロックワイズビーム探索
- Authors: Peter Pol\'ak, Brian Yan, Shinji Watanabe, Alex Waibel, Ond\v{r}ej
Bojar
- Abstract要約: ブロックワイズ・セルフアテンショナル・エンコーダ・モデル(英語版)は、同時音声翻訳において有望なエンドツーエンドのアプローチとして登場した。
本稿では、局所的な合意や品質レイテンシ制御のための$nのポリシーを組み込んだインクリメンタルなブロックワイドビームサーチを提案する。
- 参考スコア(独自算出の注目度): 49.75167556773752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Blockwise self-attentional encoder models have recently emerged as one
promising end-to-end approach to simultaneous speech translation. These models
employ a blockwise beam search with hypothesis reliability scoring to determine
when to wait for more input speech before translating further. However, this
method maintains multiple hypotheses until the entire speech input is consumed
-- this scheme cannot directly show a single \textit{incremental} translation
to users. Further, this method lacks mechanisms for \textit{controlling} the
quality vs. latency tradeoff. We propose a modified incremental blockwise beam
search incorporating local agreement or hold-$n$ policies for quality-latency
control. We apply our framework to models trained for online or offline
translation and demonstrate that both types can be effectively used in online
mode.
Experimental results on MuST-C show 0.6-3.6 BLEU improvement without changing
latency or 0.8-1.4 s latency improvement without changing quality.
- Abstract(参考訳): ブロックワイズ自己対応エンコーダモデルが最近,同時音声翻訳へのエンドツーエンドアプローチとして注目されている。
これらのモデルは、さらに翻訳する前に、より入力された音声を待つタイミングを決定するために、仮説信頼度スコアを持つブロックワイズビーム探索を用いる。
しかし、この方法は、音声入力全体が消費されるまで複数の仮説を維持する -- このスキームは、ユーザに1つの \textit{incremental} 翻訳を直接示すことはできない。
さらに、このメソッドには、品質とレイテンシのトレードオフに関する \textit{controlling} のメカニズムが欠けている。
本稿では,局所的合意や hold-n$ ポリシーを組み込んだブロックワイズビーム探索法を提案する。
オンラインまたはオフラインの翻訳用にトレーニングされたモデルに適用し、両方のタイプがオンラインモードで効果的に使用できることを示す。
must-cの実験結果では、0.6-3.6 bleu がレイテンシーを変えずに改善し、0.8-1.4 s のレイテンシーが品質を変えずに改善した。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - A Template-based Method for Constrained Neural Machine Translation [100.02590022551718]
本稿では,デコード速度を維持しつつ,高い翻訳品質と精度で結果が得られるテンプレートベースの手法を提案する。
テンプレートの生成と導出は、1つのシーケンスからシーケンスまでのトレーニングフレームワークを通じて学習することができる。
実験結果から,提案手法は語彙的,構造的に制約された翻訳タスクにおいて,いくつかの代表的ベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2022-05-23T12:24:34Z) - Non-Autoregressive Neural Machine Translation: A Call for Clarity [3.1447111126465]
我々は、非自己回帰的翻訳モデルを改善するために提案されたいくつかの手法を再検討する。
我々は,長文予測やCTCに基づくアーキテクチャ変種を用いて,強力なベースラインを確立するための新たな洞察を提供する。
4つの翻訳タスクに対してsareBLEUを用いて,標準化されたBLEU,chrF++,TERスコアをコントリビュートする。
論文 参考訳(メタデータ) (2022-05-21T12:15:22Z) - Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection [3.884530687475798]
BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
論文 参考訳(メタデータ) (2022-05-02T02:13:24Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Streaming Models for Joint Speech Recognition and Translation [11.657994715914748]
再翻訳アプローチに基づくエンドツーエンドのストリーミングSTモデルを開発し、標準のカスケードアプローチと比較します。
また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。
論文 参考訳(メタデータ) (2021-01-22T15:16:54Z) - Presenting Simultaneous Translation in Limited Space [0.0]
長文音声の自動同時翻訳のいくつかの方法は、出力のリビジョン、低レイテンシのためのトレーディング精度を許容する。
購読は素早く、漸進的に、読みに十分な時間で表示されなければならない。
テストセットの品質,レイテンシ,安定性を計測し,自動翻訳とサブティットリングの組み合わせの全体的なユーザビリティを推定する方法を提案する。
論文 参考訳(メタデータ) (2020-09-18T18:37:03Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。