論文の概要: Selecting Parallel In-domain Sentences for Neural Machine Translation
Using Monolingual Texts
- arxiv url: http://arxiv.org/abs/2112.06096v1
- Date: Sat, 11 Dec 2021 23:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 10:16:55.841676
- Title: Selecting Parallel In-domain Sentences for Neural Machine Translation
Using Monolingual Texts
- Title(参考訳): 単言語テキストを用いたニューラルネットワーク翻訳のための並列ドメイン文の選択
- Authors: Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Pieter Spronck
- Abstract要約: 本稿では,機械翻訳作業のための汎用ドメイン(並列テキスト)コーパスからドメイン内データを選択する手法を提案する。
提案手法は,単言語ドメイン固有のデータセットと相似性に応じて,並列汎用ドメインデータ中の文をランク付けする。
次に、最も類似度の高い上位K文を選択して、特定のドメイン内データに合わせて調整された新しい機械翻訳システムを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Continuously-growing data volumes lead to larger generic models. Specific
use-cases are usually left out, since generic models tend to perform poorly in
domain-specific cases. Our work addresses this gap with a method for selecting
in-domain data from generic-domain (parallel text) corpora, for the task of
machine translation. The proposed method ranks sentences in parallel
general-domain data according to their cosine similarity with a monolingual
domain-specific data set. We then select the top K sentences with the highest
similarity score to train a new machine translation system tuned to the
specific in-domain data. Our experimental results show that models trained on
this in-domain data outperform models trained on generic or a mixture of
generic and domain data. That is, our method selects high-quality
domain-specific training instances at low computational cost and data size.
- Abstract(参考訳): 継続的に成長するデータボリュームは、より大きなジェネリックモデルにつながる。
ジェネリックモデルはドメイン固有のケースでは性能が悪い傾向があるため、特定のユースケースは通常除外される。
本研究は,機械翻訳作業において,ジェネリックドメイン(並列テキスト)コーパスからドメイン内データを選択する手法を用いて,このギャップに対処する。
提案手法は,単言語ドメイン固有のデータセットと相似性に応じて,並列汎用ドメインデータ中の文をランク付けする。
次に、最も類似度の高い上位k文を選択し、特定のドメイン内データにチューニングされた新しい機械翻訳システムを訓練する。
実験の結果、このドメイン内データでトレーニングされたモデルは、ジェネリックデータまたはジェネリックデータとドメインデータの混合でトレーニングされたモデルよりも優れています。
すなわち、計算コストとデータサイズが低く、高品質なドメイン固有トレーニングインスタンスを選択する。
関連論文リスト
- Regex-augmented Domain Transfer Topic Classification based on a
Pre-trained Language Model: An application in Financial Domain [42.5087655999509]
本稿では,微調整過程におけるドメイン知識の特徴として,正規表現パターンの利用について論じる。
実シナリオ生成データを用いた実験により,本手法が下流のテキスト分類タスクを改善することを示す。
論文 参考訳(メタデータ) (2023-05-23T03:26:32Z) - Domain Adaptation of Machine Translation with Crowdworkers [34.29644521425858]
本稿では,クラウドワーカーの助けを借りて,Webから対象ドメインの並列文を効率的に収集するフレームワークを提案する。
収集した並列データにより、マシン翻訳モデルをターゲット領域に迅速に適応させることができる。
実験の結果,提案手法は数日間にわたって,適切なコストで目標領域の並列データを収集できることがわかった。
論文 参考訳(メタデータ) (2022-10-28T03:11:17Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Machine Translation Customization via Automatic Training Data Selection
from the Web [97.98885151955467]
特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。
ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
論文 参考訳(メタデータ) (2021-02-20T03:29:41Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。