論文の概要: Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2109.06604v1
- Date: Tue, 14 Sep 2021 11:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:59:33.127071
- Title: Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳のための非パラメトリック非教師なしドメイン適応
- Authors: Xin Zheng, Zhirui Zhang, Shujian Huang, Boxing Chen, Jun Xie, Weihua
Luo and Jiajun Chen
- Abstract要約: $k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 61.27321597981737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, $k$NN-MT has shown the promising capability of directly
incorporating the pre-trained neural machine translation (NMT) model with
domain-specific token-level $k$-nearest-neighbor ($k$NN) retrieval to achieve
domain adaptation without retraining. Despite being conceptually attractive, it
heavily relies on high-quality in-domain parallel corpora, limiting its
capability on unsupervised domain adaptation, where in-domain parallel corpora
are scarce or nonexistent. In this paper, we propose a novel framework that
directly uses in-domain monolingual sentences in the target language to
construct an effective datastore for $k$-nearest-neighbor retrieval. To this
end, we first introduce an autoencoder task based on the target language, and
then insert lightweight adapters into the original NMT model to map the
token-level representation of this task to the ideal representation of
translation task. Experiments on multi-domain datasets demonstrate that our
proposed approach significantly improves the translation accuracy with
target-side monolingual data, while achieving comparable performance with
back-translation.
- Abstract(参考訳): 最近、$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルをドメイン固有のトークンレベルである$k$-nearest-neighbor(k$NN)検索に直接組み込むことで、再トレーニングなしにドメイン適応を実現する、という有望な能力を示している。
概念的には魅力的だが、高品質なドメイン内並列コーパスに大きく依存しており、非教師なしのドメイン適応能力に制限されている。
本稿では,対象言語内単言語文を直接使用して,$k$-nearest-neighbor 検索のための効果的なデータストアを構築する新しい枠組みを提案する。
この目的のために、まずターゲット言語に基づくオートエンコーダタスクを導入し、次に軽量アダプタを元のNTTモデルに挿入し、このタスクのトークンレベル表現を翻訳タスクの理想的な表現にマッピングする。
マルチドメインデータセットを用いた実験により,提案手法により,ターゲット側モノリンガルデータによる翻訳精度が向上し,バックトランスレーションと同等の性能が得られた。
関連論文リスト
- Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Nearest Neighbor Machine Translation is Meta-Optimizer on Output
Projection Layer [44.02848852485475]
Nearest Neighbor Machine Translation (k$NN-MT)はドメイン適応タスクで大きな成功を収めた。
理論的および実証的研究を通じて,$k$NN-MTを包括的に分析した。
論文 参考訳(メタデータ) (2023-05-22T13:38:53Z) - Simple and Scalable Nearest Neighbor Machine Translation [11.996135740547897]
$k$NN-MTは、高速なドメイン適応のための強力なアプローチである。
簡便でスケーラブルな近接機械翻訳フレームワークを提案する。
提案手法は性能劣化のないNMTモデルとしてほぼ90%の高速化を実現する。
論文 参考訳(メタデータ) (2023-02-23T17:28:29Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Generalised Unsupervised Domain Adaptation of Neural Machine Translation
with Cross-Lingual Data Selection [34.90952499734384]
そこで本研究では,多言語単一言語コーパスから,欠落言語側のドメイン内文を抽出する言語間データ選択手法を提案する。
提案手法は,多言語BERT上の適応層を比較学習により学習し,ソースとターゲット言語間の表現を整合させる。
我々は,NMTにおける言語間データ選択手法を,3つの言語ペアで5つのドメインにまたがって評価した。
論文 参考訳(メタデータ) (2021-09-09T14:12:12Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。