論文の概要: Machine Translation Customization via Automatic Training Data Selection
from the Web
- arxiv url: http://arxiv.org/abs/2102.10243v1
- Date: Sat, 20 Feb 2021 03:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:06:12.543351
- Title: Machine Translation Customization via Automatic Training Data Selection
from the Web
- Title(参考訳): Webからの自動トレーニングデータ選択による機械翻訳のカスタマイズ
- Authors: Thuy Vu and Alessandro Moschitti
- Abstract要約: 特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。
ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
- 参考スコア(独自算出の注目度): 97.98885151955467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation (MT) systems, especially when designed for an industrial
setting, are trained with general parallel data derived from the Web. Thus,
their style is typically driven by word/structure distribution coming from the
average of many domains. In contrast, MT customers want translations to be
specialized to their domain, for which they are typically able to provide text
samples. We describe an approach for customizing MT systems on specific domains
by selecting data similar to the target customer data to train neural
translation models. We build document classifiers using monolingual target
data, e.g., provided by the customers to select parallel training data from Web
crawled data. Finally, we train MT models on our automatically selected data,
obtaining a system specialized to the target domain. We tested our approach on
the benchmark from WMT-18 Translation Task for News domains enabling
comparisons with state-of-the-art MT systems. The results show that our models
outperform the top systems while using less data and smaller models.
- Abstract(参考訳): 特に産業環境向けに設計された機械翻訳(MT)システムは、Webから派生した一般的な並列データで訓練されます。
したがって、それらのスタイルは一般に、多くのドメインの平均から来る単語/構造分布によって駆動される。
対照的に、mtの顧客は翻訳を自分のドメインに特化したいと考えており、テキストサンプルを提供するのが一般的である。
対象の顧客データに類似したデータを選択して神経翻訳モデルを訓練することにより、特定のドメインでMTシステムをカスタマイズするアプローチについて説明します。
ユーザが提供するモノリンガルなターゲットデータを用いて文書分類器を構築し,Webクローリングデータから並列トレーニングデータを選択する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
我々は、WMT-18翻訳タスクから、最新のMTシステムとの比較を可能にするベンチマークで、我々のアプローチを検証した。
その結果、データが少なくて小さいモデルを使用して、私たちのモデルはトップシステムよりも優れています。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Segment-Based Interactive Machine Translation for Pre-trained Models [2.0871483263418806]
対話型機械翻訳環境におけるLLM(Pre-trained large language model)の利用について検討する。
システムは、ユーザが各イテレーションで提供するフィードバックを使って、インタラクティブに完璧な翻訳を生成する。
我々は,mBART,mT5,SoTA(State-of-the-art)機械翻訳モデルの性能を,ユーザ作業に関するベンチマークデータセット上で比較した。
論文 参考訳(メタデータ) (2024-07-09T16:04:21Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。
モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文 参考訳(メタデータ) (2022-10-18T08:51:25Z) - Data Selection Curriculum for Neural Machine Translation [31.55953464971441]
NMTモデルのための2段階のカリキュラムトレーニングフレームワークを提案する。
我々は、事前学習法とオンラインスコアを用いた決定論的スコアリングの両方によって選択されたデータのサブセットに基づいてベースNMTモデルを微調整する。
我々のカリキュラム戦略は、常により良い品質(+2.2BLEUの改善)とより高速な収束を示すことを示した。
論文 参考訳(メタデータ) (2022-03-25T19:08:30Z) - Selecting Parallel In-domain Sentences for Neural Machine Translation
Using Monolingual Texts [0.0]
本稿では,機械翻訳作業のための汎用ドメイン(並列テキスト)コーパスからドメイン内データを選択する手法を提案する。
提案手法は,単言語ドメイン固有のデータセットと相似性に応じて,並列汎用ドメインデータ中の文をランク付けする。
次に、最も類似度の高い上位K文を選択して、特定のドメイン内データに合わせて調整された新しい機械翻訳システムを訓練する。
論文 参考訳(メタデータ) (2021-12-11T23:29:26Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。