論文の概要: Simultaneous Translation for Unsegmented Input: A Sliding Window
Approach
- arxiv url: http://arxiv.org/abs/2210.09754v1
- Date: Tue, 18 Oct 2022 11:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:39:16.433817
- Title: Simultaneous Translation for Unsegmented Input: A Sliding Window
Approach
- Title(参考訳): unsegmented inputのための同時翻訳:スライディングウィンドウアプローチ
- Authors: Sukanta Sen and Ond\v{r}ej Bojar and Barry Haddow
- Abstract要約: 自動セグメンタを使わずに生のASR出力(オンラインまたはオフライン)を変換するためのスライディングウインドウ手法を提案する。
英語-ドイツ語-英語-チェコ語の実験では,通常のASR-セグメンタパイプラインよりも1.3-2.0のBLEU点が向上した。
- 参考スコア(独自算出の注目度): 8.651762907847848
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the cascaded approach to spoken language translation (SLT), the ASR output
is typically punctuated and segmented into sentences before being passed to MT,
since the latter is typically trained on written text. However, erroneous
segmentation, due to poor sentence-final punctuation by the ASR system, leads
to degradation in translation quality, especially in the simultaneous (online)
setting where the input is continuously updated. To reduce the influence of
automatic segmentation, we present a sliding window approach to translate raw
ASR outputs (online or offline) without needing to rely on an automatic
segmenter. We train translation models using parallel windows (instead of
parallel sentences) extracted from the original training data. At test time, we
translate at the window level and join the translated windows using a simple
approach to generate the final translation. Experiments on English-to-German
and English-to-Czech show that our approach improves 1.3--2.0 BLEU points over
the usual ASR-segmenter pipeline, and the fixed-length window considerably
reduces flicker compared to a baseline retranslation-based online SLT system.
- Abstract(参考訳): 音声言語翻訳(slt)へのカスケードアプローチでは、asrの出力は、典型的にはテキストで訓練されるため、mtに渡される前に句読化され、文に分割される。
しかし、asrシステムによる文末句読点の低さによる誤ったセグメンテーションは、特に入力が連続的に更新される同時(オンライン)設定において、翻訳品質の低下につながる。
自動セグメンテーションの影響を低減するため,自動セグメンタに頼ることなく,生のASR出力(オンラインまたはオフライン)を変換するスライディングウィンドウ手法を提案する。
元の学習データから抽出した並列ウィンドウ(並列文の代わりに)を用いて翻訳モデルを訓練する。
テスト時には、ウィンドウレベルで翻訳を行い、最終的な翻訳を生成する単純なアプローチで翻訳されたウィンドウに結合します。
従来のasr-segmenterパイプラインよりも1.3-2.0 bleu点が改善され,固定長ウィンドウではベースライン再翻訳方式のオンラインsltシステムに比べてflickerが大幅に削減された。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - A Technical Report: BUT Speech Translation Systems [2.9327503320877457]
本稿では,BUTの音声翻訳システムについて述べる。
システムは英語$longrightarrow$Germanのオフライン音声翻訳システムである。
オラクル入力テキストと比較して、ASR仮説を翻訳する際には、大きな劣化が観察される。
論文 参考訳(メタデータ) (2020-10-22T10:52:31Z) - Cascaded Models With Cyclic Feedback For Direct Speech Translation [14.839931533868176]
本稿では,自動音声認識(ASR)と機械翻訳(MT)のカスケードを用いて,ドメイン内直接音声翻訳データを活用する手法を提案する。
同一アーキテクチャと同一データのコンポーネントを用いたエンドツーエンドの音声翻訳と比較すると、LibriVoxDeEnでは最大3.8 BLEU点、ドイツ語と英語の音声翻訳ではCoVoSTでは最大5.1 BLEU点が得られた。
論文 参考訳(メタデータ) (2020-10-21T17:18:51Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Dynamic Masking for Improved Stability in Spoken Language Translation [8.591381243212712]
翻訳品質を犠牲にすることなく、マスクが遅延フリックのトレードオフを改善する方法を示す。
考えられる解決策は、MTシステムの出力に固定遅延(mask)を追加することである。
このマスクを動的に設定する方法を示し、翻訳品質を犠牲にすることなくレイテンシ・フリックストレードオフを改善する。
論文 参考訳(メタデータ) (2020-05-30T12:23:10Z) - Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。
このアーキテクチャはBLEUから36.8から44.5に改善されている。
すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文 参考訳(メタデータ) (2020-04-25T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。