論文の概要: IsometricMT: Neural Machine Translation for Automatic Dubbing
- arxiv url: http://arxiv.org/abs/2112.08682v1
- Date: Thu, 16 Dec 2021 08:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 02:01:25.192351
- Title: IsometricMT: Neural Machine Translation for Automatic Dubbing
- Title(参考訳): IsometricMT: 自動ダビングのためのニューラルネットワーク翻訳
- Authors: Surafel M. Lakew, Yogesh Virkar, Prashant Mathur, Marcello Federico
- Abstract要約: この研究は、トランスフォーマーモデルが直接学習して、ソース長と密接に一致する出力を生成することができる自己学習アプローチを導入している。
TED Talkデータに基づく4つの言語対と公開ベンチマークの結果を報告する。
- 参考スコア(独自算出の注目度): 9.605781943224251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic dubbing (AD) is among the use cases where translations should fit a
given length template in order to achieve synchronicity between source and
target speech. For neural machine translation (MT), generating translations of
length close to the source length (e.g. within +-10% in character count), while
preserving quality is a challenging task. Controlling NMT output length comes
at a cost to translation quality which is usually mitigated with a two step
approach of generation of n-best hypotheses and then re-ranking them based on
length and quality. This work, introduces a self-learning approach that allows
a transformer model to directly learn to generate outputs that closely match
the source length, in short isometric MT. In particular, our approach for
isometric MT does not require to generate multiple hypotheses nor any auxiliary
scoring function. We report results on four language pairs (English - French,
Italian, German, Spanish) with a publicly available benchmark based on TED Talk
data. Both automatic and manual evaluations show that our self-learning
approach to performs on par with more complex isometric MT approaches.
- Abstract(参考訳): 自動ダビング(AD)は、ソースとターゲットの音声の同期を実現するために、翻訳が所定の長さテンプレートに適合すべきユースケースの一つである。
ニューラルマシン翻訳(mt)の場合、品質を維持しながらソース長に近い長さの翻訳(例えば、文字数で+-10%以内)を生成することは難しい作業である。
NMT出力長の制御は、通常、n-best仮説の生成の2段階のアプローチで緩和され、長さと品質に基づいてそれらを再分類する翻訳品質にコストがかかる。
本研究は,トランスフォーマティブモデルがソース長と密接に一致する出力生成を,短時間等尺mtで直接学習できる自己学習手法を導入することを目的とする。特に,等尺mtに対するアプローチでは,複数の仮説や補助スコアリング関数を生成する必要がなくなる。
TED Talkデータに基づく,4つの言語ペア(英語,フランス語,イタリア語,ドイツ語,スペイン語)のベンチマーク結果について報告する。
自動評価と手動評価の両方で、我々の自己学習アプローチはより複雑な等尺的MTアプローチと同等に機能することが示された。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - Efficient Inference for Multilingual Neural Machine Translation [60.10996883354372]
我々は、その品質を劣化させることなく、多言語NMTを推論で高速にする方法をいくつか検討する。
実験により,浅いデコーダと語彙フィルタを組み合わせることで,翻訳品質を損なうことなく2倍以上の高速な推論が可能であることが確認された。
論文 参考訳(メタデータ) (2021-09-14T13:28:13Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Automatic Machine Translation Evaluation in Many Languages via Zero-Shot
Paraphrasing [11.564158965143418]
我々は,機械翻訳評価の課題を,シーケンス・ツー・シーケンス・パラフレーズを用いたスコアリング機械翻訳出力の1つとして捉えた。
我々は,パラフレーズ処理をゼロショット翻訳タスクとして扱う多言語NMTシステムとして,パラフレーズを訓練することを提案する。
我々の手法は単純で直感的で、訓練には人間の判断を必要としない。
論文 参考訳(メタデータ) (2020-04-30T03:32:34Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。