論文の概要: Domain Adaptation of NMT models for English-Hindi Machine Translation
Task at AdapMT ICON 2020
- arxiv url: http://arxiv.org/abs/2012.12112v2
- Date: Wed, 23 Dec 2020 11:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:45:21.603902
- Title: Domain Adaptation of NMT models for English-Hindi Machine Translation
Task at AdapMT ICON 2020
- Title(参考訳): AdapMT ICON 2020における英語・ヒンディー語機械翻訳タスクのためのNMTモデルのドメイン適応
- Authors: Ramchandra Joshi, Rushabh Karnavat, Kaustubh Jirapure, Raviraj Joshi
- Abstract要約: 本稿では,adapmt共有タスクアイコン2020で提示された英語ヒンディー語のニューラルマシン翻訳システムについて述べる。
我々のチームは化学・一般分野のEn-Hi翻訳タスクで第1位、AI分野のEn-Hi翻訳タスクで第2位にランクインした。
- 参考スコア(独自算出の注目度): 2.572404739180802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Neural Machine Translation (NMT) models have proved to
produce a state of the art results on machine translation for low resource
Indian languages. This paper describes the neural machine translation systems
for the English-Hindi language presented in AdapMT Shared Task ICON 2020. The
shared task aims to build a translation system for Indian languages in specific
domains like Artificial Intelligence (AI) and Chemistry using a small in-domain
parallel corpus. We evaluated the effectiveness of two popular NMT models i.e,
LSTM, and Transformer architectures for the English-Hindi machine translation
task based on BLEU scores. We train these models primarily using the out of
domain data and employ simple domain adaptation techniques based on the
characteristics of the in-domain dataset. The fine-tuning and mixed-domain data
approaches are used for domain adaptation. Our team was ranked first in the
chemistry and general domain En-Hi translation task and second in the AI domain
En-Hi translation task.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)モデルの最近の進歩は、低資源のインドの言語に対する機械翻訳における技術結果の状態を実証している。
本稿では,adapmt共有タスクアイコン2020で提示された英語ヒンディー語のニューラルマシン翻訳システムについて述べる。
この共有タスクは、ai(artificial intelligence)や化学といった特定のドメインにおけるインド言語のための、小さなドメイン内並列コーパスを用いた翻訳システムの構築を目的としている。
BLEUスコアに基づく英ヒンディー語機械翻訳タスクにおける2つのNMTモデル,LSTM,Transformerアーキテクチャの有効性を評価した。
主にドメイン外のデータを用いてこれらのモデルをトレーニングし、ドメイン内のデータセットの特徴に基づいてシンプルなドメイン適応技術を用いています。
微調整と混合ドメインデータアプローチはドメイン適応に使用される。
我々のチームは化学・一般分野のEn-Hi翻訳タスクで第1位、AI分野のEn-Hi翻訳タスクで第2位にランクインした。
関連論文リスト
- Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Confidence Based Bidirectional Global Context Aware Training Framework
for Neural Machine Translation [74.99653288574892]
我々は、ニューラルネットワーク翻訳(NMT)のための信頼に基づく双方向グローバルコンテキスト認識(CBBGCA)トレーニングフレームワークを提案する。
提案したCBBGCAトレーニングフレームワークは,3つの大規模翻訳データセットにおいて,NMTモデルを+1.02,+1.30,+0.57 BLEUスコアで大幅に改善する。
論文 参考訳(メタデータ) (2022-02-28T10:24:22Z) - Domain Adaptation in Neural Machine Translation using a Qualia-Enriched
FrameNet [64.0476282000118]
ニューラルネットワーク翻訳(NMT)システムのドメイン適応手法であるScyllaを提案する。
Scyllaの2つのバージョンが提示される: 1つはソース文を入力として使用し、もう1つはターゲット文を使用する。
スポーツドメインの50文をブラジルポルトガル語から英語に翻訳する実験において,Scyllaを最先端の商用NMTシステムと比較した。
論文 参考訳(メタデータ) (2022-02-21T15:05:23Z) - Learning Domain Specific Language Models for Automatic Speech
Recognition through Machine Translation [0.0]
我々は、タスク固有のテキストデータの翻訳を最初に取得するために、中間ステップとしてNeural Machine Translationを使用します。
我々はNMTビームサーチグラフから単語混乱ネットワークを導出する手法を開発した。
NMT混在ネットワークは、n-gramと繰り返しニューラルネットワークLMの両方の難易度を低減するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-21T10:29:20Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Machine Translation Customization via Automatic Training Data Selection
from the Web [97.98885151955467]
特定のドメインで機械翻訳システムをカスタマイズするためのアプローチについて説明します。
ターゲットとなる顧客データに似たデータを選択し、ニューラル翻訳モデルを訓練する。
最後に、自動選択したデータに基づいてMTモデルをトレーニングし、対象領域に特化したシステムを得る。
論文 参考訳(メタデータ) (2021-02-20T03:29:41Z) - Synthesizing Monolingual Data for Neural Machine Translation [22.031658738184166]
ニューラルマシン翻訳(NMT)では、ターゲット言語の単言語データが通常、追加の訓練並列データを合成するために利用される。
ターゲットドメインや言語における大きなモノリンガルデータは、必ずしも大きな合成並列データを生成するために利用できない。
特定の領域における非常に小さな単言語データを利用した大規模合成並列データを生成する手法を提案する。
論文 参考訳(メタデータ) (2021-01-29T08:17:40Z) - Multilingual Pre-Trained Transformers and Convolutional NN
Classification Models for Technical Domain Identification [9.23545668304066]
多言語テキストデータ上で技術ドメイン識別を行うトランスファー学習システムを提案する。
1つはトランスモデルBERTを使用し、もう1つはCNNモデルとXLM-ROBERTaをテキスト分類に使用します。
当社のシステムは,TechDOficationデータセットのサブタスク1d,1gでベストにランク付けした。
論文 参考訳(メタデータ) (2021-01-22T09:18:02Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。