論文の概要: Re-translation versus Streaming for Simultaneous Translation
- arxiv url: http://arxiv.org/abs/2004.03643v3
- Date: Mon, 29 Jun 2020 23:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:08:24.594974
- Title: Re-translation versus Streaming for Simultaneous Translation
- Title(参考訳): 同時翻訳のための再翻訳とストリーミング
- Authors: Naveen Arivazhagan, Colin Cherry, Wolfgang Macherey and George Foster
- Abstract要約: 本研究では,厳密な付加語以上の仮説の修正が許される問題について検討する。
この設定では、カスタムストリーミングアプローチと再翻訳を比較します。
再翻訳は最先端のストリーミングシステムと同じくらい良いか良いかのどちらかだと考えています。
- 参考スコア(独自算出の注目度): 14.800214853561823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been great progress in improving streaming machine translation, a
simultaneous paradigm where the system appends to a growing hypothesis as more
source content becomes available. We study a related problem in which revisions
to the hypothesis beyond strictly appending words are permitted. This is
suitable for applications such as live captioning an audio feed. In this
setting, we compare custom streaming approaches to re-translation, a
straightforward strategy where each new source token triggers a distinct
translation from scratch. We find re-translation to be as good or better than
state-of-the-art streaming systems, even when operating under constraints that
allow very few revisions. We attribute much of this success to a previously
proposed data-augmentation technique that adds prefix-pairs to the training
data, which alongside wait-k inference forms a strong baseline for streaming
translation. We also highlight re-translation's ability to wrap arbitrarily
powerful MT systems with an experiment showing large improvements from an
upgrade to its base model.
- Abstract(参考訳): ストリーミングマシン翻訳(streaming machine translation)は、より多くのソースコンテンツが利用可能になると、システムが増大する仮説を付加する同時パラダイムである。
本稿では,厳密な付加語以上の仮説の修正が許される関連する問題について検討する。
これはオーディオフィードのライブキャプションなどのアプリケーションに適している。
この設定では、各新しいソーストークンがスクラッチから異なる翻訳をトリガーする簡単な戦略である、リ翻訳に対するカスタムストリーミングアプローチを比較します。
ごくわずかなリビジョンを許容する制約の下で運用している場合でも、再翻訳は最先端のストリーミングシステムと同等あるいはそれ以上に優れていることが分かっています。
この成功の大部分は、トレーニングデータにプレフィックスペアを追加して、ストリーミング翻訳の強力なベースラインを形成するデータ拡張技術によるものである。
また,更新からベースモデルへの大幅な改善を示す実験により,任意の強力なMTシステムをラップする再翻訳機能についても強調した。
関連論文リスト
- Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - From Simultaneous to Streaming Machine Translation by Leveraging
Streaming History [4.831134508326648]
同時機械翻訳(英: Simultaneous Machine Translation)は、入力文が完全に利用可能になる前に漸進的に翻訳するタスクである。
ストリーム MT は連続的な入力テキストストリームの漸進的変換への同時 MT の拡張と解釈できる。
本研究では、ストリーミング履歴を活用することで、最先端の文レベルMTシステムをストリーミング設定に拡張する。
論文 参考訳(メタデータ) (2022-03-04T17:41:45Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - Faster Re-translation Using Non-Autoregressive Model For Simultaneous
Neural Machine Translation [10.773010211146694]
非回帰的シーケンス生成モデル(FReTNA)に基づく高速再翻訳システムを提案する。
提案モデルでは,ReTAモデルと比較して平均計算時間を20倍に削減する。
また、ストリーミングベースのwait-kモデルよりも時間(1.5倍)と翻訳品質の両方で優れている。
論文 参考訳(メタデータ) (2020-12-29T09:43:27Z) - SimulEval: An Evaluation Toolkit for Simultaneous Translation [59.02724214432792]
テキストと音声の同時翻訳は、リアルタイムと低レイテンシのシナリオに焦点を当てている。
SimulEvalは、テキストと音声の同時翻訳のための、使いやすくて汎用的な評価ツールキットである。
論文 参考訳(メタデータ) (2020-07-31T17:44:41Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - Simplify-then-Translate: Automatic Preprocessing for Black-Box Machine
Translation [5.480070710278571]
文の単純化による自動前処理(APP)によるブラックボックス機械翻訳システムの改善手法を提案する。
まず,ブラックボックスMTシステムによるバックトランスレーションにより,大規模なドメイン内パラフレーズコーパスを自動生成する手法を提案する。
この前処理によって、非前処理のソース文と比較して翻訳性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-22T14:15:53Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。