論文の概要: Navigating the Minefield of MT Beam Search in Cascaded Streaming Speech Translation
- arxiv url: http://arxiv.org/abs/2407.11010v1
- Date: Wed, 26 Jun 2024 07:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 12:29:47.740821
- Title: Navigating the Minefield of MT Beam Search in Cascaded Streaming Speech Translation
- Title(参考訳): 時系列ストリーム音声翻訳におけるMTビーム探索のマイニングフィールドの探索
- Authors: Rastislav Rabatin, Frank Seide, Ernie Chang,
- Abstract要約: 我々は,機械翻訳においてよく知られたビームサーチアルゴリズムを適用し,実時間音声翻訳システムで動作させる。
これは4つの重要な課題のために、当初予想されていたよりも複雑であることが判明した。
- 参考スコア(独自算出の注目度): 4.20846752769876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We adapt the well-known beam-search algorithm for machine translation to operate in a cascaded real-time speech translation system. This proved to be more complex than initially anticipated, due to four key challenges: (1) real-time processing of intermediate and final transcriptions with incomplete words from ASR, (2) emitting intermediate and final translations with minimal user perceived latency, (3) handling beam search hypotheses that have unequal length and different model state, and (4) handling sentence boundaries. Previous work in the field of simultaneous machine translation only implemented greedy decoding. We present a beam-search realization that handles all of the above, providing guidance through the minefield of challenges. Our approach increases the BLEU score by 1 point compared to greedy search, reduces the CPU time by up to 40% and character flicker rate by 20+% compared to a baseline heuristic that just retranslates input repeatedly.
- Abstract(参考訳): 我々は,機械翻訳においてよく知られたビームサーチアルゴリズムを適用し,実時間音声翻訳システムで動作させる。
これは、(1) ASRの不完全単語による中間文字と最終文字のリアルタイム処理、(2) ユーザの知覚遅延を最小限に抑えた中間文字と最終翻訳の出力、(3) 長さとモデル状態の異なるビーム探索仮説の処理、(4) 文境界の処理の4つの主要な課題により、当初予想より複雑であることが判明した。
機械翻訳の分野でのこれまでの作業では、グレディ復号化しか実装されていなかった。
上記の全てを処理し、課題の地雷フィールドを通じてガイダンスを提供するビームサーチ実現法を提案する。
提案手法では,入力を繰り返し再翻訳するベースラインヒューリスティックに比べて,BLEUスコアが1ポイント向上し,CPU時間を最大40%削減し,キャラクタフリックレートが20%向上する。
関連論文リスト
- Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff [49.75167556773752]
ブロックワイズ・セルフアテンショナル・エンコーダ・モデル(英語版)は、同時音声翻訳において有望なエンドツーエンドのアプローチとして登場した。
本稿では、局所的な合意や品質レイテンシ制御のための$nのポリシーを組み込んだインクリメンタルなブロックワイドビームサーチを提案する。
論文 参考訳(メタデータ) (2023-09-20T14:59:06Z) - Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。
また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文 参考訳(メタデータ) (2022-10-31T07:46:10Z) - Amortized Noisy Channel Neural Machine Translation [53.48804610779759]
ノイズチャネルモデルは神経機械翻訳(NMT)に特に有効である
我々は,BSRで生成された翻訳と同じ報酬を最大化する翻訳を生成するような,アモータイズされたノイズチャネルNMTモデルを構築することを目指している。
論文 参考訳(メタデータ) (2021-12-16T07:10:02Z) - Exploiting Curriculum Learning in Unsupervised Neural Machine
Translation [28.75229367700697]
複数の粒度から擬似バイテキストを徐々に活用するカリキュラム学習手法を提案する。
WMT 14 En-Fr, WMT 16 En-De, WMT 16 En-Ro, LDC En-Zh 翻訳タスクの実験結果から,提案手法はより高速な収束速度で一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2021-09-23T07:18:06Z) - Exploiting Neural Query Translation into Cross Lingual Information
Retrieval [49.167049709403166]
既存のCLIRシステムは、高度ニューラルネットワーク翻訳(NMT)ではなく、統計ベースの機械翻訳(SMT)を主に活用している
本稿では,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。
実験結果から,提案手法は強いベースラインよりも高い検索精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-10-26T15:28:19Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Towards Multimodal Simultaneous Neural Machine Translation [28.536262015508722]
同時翻訳では、リアルタイム理解を実現するために、話者の発話が完了する前に文章を翻訳する。
このタスクは、復号時に入力情報が不足しているため、一般的な全文翻訳よりもはるかに難しい。
視覚情報を付加的なモダリティとして活用するマルチモーダル同時ニューラルネットワーク翻訳(MSNMT)を提案する。
論文 参考訳(メタデータ) (2020-04-07T08:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。