論文の概要: Finding the Right Recipe for Low Resource Domain Adaptation in Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2206.01137v1
- Date: Thu, 2 Jun 2022 16:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:43:13.324961
- Title: Finding the Right Recipe for Low Resource Domain Adaptation in Neural
Machine Translation
- Title(参考訳): ニューラルマシン翻訳における低リソース領域適応に適したレシピの探索
- Authors: Virginia Adams, Sandeep Subramanian, Mike Chrzanowski, Oleksii
Hrinchuk, and Oleksii Kuchaiev
- Abstract要約: 一般的な翻訳モデルは、しばしば専門領域で正確な翻訳を生成するのに苦労する。
ドメイン適応に対するモノリンガルおよび並列データアプローチの詳細な実験を行った。
私たちの研究には、消費者電子、臨床、バイオメディカルの3つの領域が含まれています。
- 参考スコア(独自算出の注目度): 7.2283509416724465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General translation models often still struggle to generate accurate
translations in specialized domains. To guide machine translation practitioners
and characterize the effectiveness of domain adaptation methods under different
data availability scenarios, we conduct an in-depth empirical exploration of
monolingual and parallel data approaches to domain adaptation of pre-trained,
third-party, NMT models in settings where architecture change is impractical.
We compare data centric adaptation methods in isolation and combination. We
study method effectiveness in very low resource (8k parallel examples) and
moderately low resource (46k parallel examples) conditions and propose an
ensemble approach to alleviate reductions in original domain translation
quality. Our work includes three domains: consumer electronic, clinical, and
biomedical and spans four language pairs - Zh-En, Ja-En, Es-En, and Ru-En. We
also make concrete recommendations for achieving high in-domain performance and
release our consumer electronic and medical domain datasets for all languages
and make our code publicly available.
- Abstract(参考訳): 一般的な翻訳モデルは、しばしば特別なドメインで正確な翻訳を生成するのに苦労する。
機械翻訳の実践者を指導し、異なるデータ可用性シナリオ下でのドメイン適応手法の有効性を特徴付けるため、アーキテクチャ変更が不可能な環境で、事前訓練されたサードパーティNMTモデルのドメイン適応に対する単言語および並列データアプローチの詳細な実験を行った。
我々はデータ中心適応法を分離と組み合わせで比較する。
超低資源(8k並列実例)および適度低資源(46k並列実例)条件における手法の有効性について検討し、元のドメイン翻訳品質の低減を緩和するためのアンサンブルアプローチを提案する。
我々の研究は、消費者電子、臨床、バイオメディカルの3つの領域を含み、Zh-En、Ja-En、Es-En、Ru-Enの4つの言語対にまたがる。
また、高いドメイン内パフォーマンスを達成するための具体的な推奨を行い、すべての言語用のコンシューマ電子および医療ドメインデータセットをリリースし、コードを公開できるようにしています。
関連論文リスト
- Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - DaLC: Domain Adaptation Learning Curve Prediction for Neural Machine
Translation [10.03007605098947]
ニューラルネットワーク翻訳(NMT)モデルのドメイン適応(DA)は、しばしば、ドメイン内の並列データのサンプルに基づいて新しいドメインに適応する訓練済みの一般NMTモデルに依存する。
本稿では,ソース言語におけるドメイン内単言語サンプルに基づいて,DAのパフォーマンスを予測可能なドメイン学習曲線予測(DaLC)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T06:57:48Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z) - Domain Adaptation and Multi-Domain Adaptation for Neural Machine
Translation: A Survey [9.645196221785694]
ニューラルマシン翻訳(nmt)モデルのドメイン適応に対するロバストなアプローチに注目した。
特に、システムが複数のドメインから文を翻訳する必要がある場合を検討します。
我々はNMT研究の他の分野に対するドメイン適応とマルチドメイン適応技術の利点を強調した。
論文 参考訳(メタデータ) (2021-04-14T16:21:37Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。