論文の概要: ConsistTL: Modeling Consistency in Transfer Learning for Low-Resource
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2212.04262v1
- Date: Thu, 8 Dec 2022 13:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:20:56.517855
- Title: ConsistTL: Modeling Consistency in Transfer Learning for Low-Resource
Neural Machine Translation
- Title(参考訳): ConsistTL:低リソースニューラルネットワーク翻訳における伝達学習の一貫性のモデル化
- Authors: Zhaocong Li, Xuebo Liu, Derek F. Wong, Lidia S. Chao, Min Zhang
- Abstract要約: 本研究では,親モデルから子モデルへの情報伝達を連続的に行うConsistTLを提案する。
本研究では,ConsistTLが強い伝達学習ベースラインよりも大幅に向上することを示す。
さらなる分析により、ConsistTLは子モデルの推論キャリブレーションを改善することができることが明らかになった。
- 参考スコア(独自算出の注目度): 47.71708480154336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning is a simple and powerful method that can be used to boost
model performance of low-resource neural machine translation (NMT). Existing
transfer learning methods for NMT are static, which simply transfer knowledge
from a parent model to a child model once via parameter initialization. In this
paper, we propose a novel transfer learning method for NMT, namely ConsistTL,
which can continuously transfer knowledge from the parent model during the
training of the child model. Specifically, for each training instance of the
child model, ConsistTL constructs the semantically-equivalent instance for the
parent model and encourages prediction consistency between the parent and child
for this instance, which is equivalent to the child model learning each
instance under the guidance of the parent model. Experimental results on five
low-resource NMT tasks demonstrate that ConsistTL results in significant
improvements over strong transfer learning baselines, with a gain up to 1.7
BLEU over the existing back-translation model on the widely-used WMT17
Turkish-English benchmark. Further analysis reveals that ConsistTL can improve
the inference calibration of the child model. Code and scripts are freely
available at https://github.com/NLP2CT/ConsistTL.
- Abstract(参考訳): 転送学習は、低リソースニューラルネットワーク翻訳(NMT)のモデル性能を高めるために、シンプルで強力な手法である。
NMTの既存の伝達学習方法は静的であり、パラメータ初期化によって親モデルから子モデルに知識を伝達する。
本稿では,子育てモデルの学習中に,親モデルから知識を連続的に伝達できる,nmtのための新しいトランスファー学習法である consisttl を提案する。
具体的には、子モデルのトレーニングインスタンスごとに、親モデルのセマンティック等価なインスタンスを構築し、親モデルのガイダンスの下で各インスタンスを学習する子モデルに相当する、このインスタンスの親と子の間の予測一貫性を促進する。
低リソースのNTTタスク5つの実験結果から、ConsistTLは強力なトランスファーラーニングベースラインよりも大幅に改善され、広く使用されているWMT17トルコ語のベンチマークで既存のバックトランスレーションモデルよりも1.7BLEUまで向上した。
さらに解析した結果、ConsistTLは子モデルの推論キャリブレーションを改善することができることがわかった。
コードとスクリプトはhttps://github.com/NLP2CT/ConsistTLで無料で入手できる。
関連論文リスト
- Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Active Learning for Neural Machine Translation [0.0]
NMTツールキットのJoey NMTにActive Learningと呼ばれるテクニックを組み込んで、低リソース言語翻訳の十分な精度と堅牢な予測を行った。
この研究は、トランスフォーマーベースのNMTシステム、ベースラインモデル(BM)、フルトレーニングモデル(FTM)、アクティブラーニング最小信頼ベースモデル(ALLCM)、アクティブラーニングマージンサンプリングベースモデル(ALMSM)を用いて、英語をヒンディー語に翻訳する。
論文 参考訳(メタデータ) (2022-12-30T17:04:01Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - End-to-End Training for Back-Translation with Categorical Reparameterization Trick [0.0]
バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである
事前学習されたNMTモデルは、モノリンガル文を翻訳し、他のNMTモデルのトレーニングのために合成バイリンガル文ペアを作成する。
翻訳文の離散的性質は、情報勾配が2つのNMTモデル間で流れるのを防ぐ。
論文 参考訳(メタデータ) (2022-02-17T06:31:03Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Collective Wisdom: Improving Low-resource Neural Machine Translation
using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。
そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。
IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-10-12T04:26:46Z) - Self-Paced Learning for Neural Machine Translation [55.41314278859938]
ニューラルネットワーク翻訳(NMT)訓練のためのセルフペースト学習を提案する。
提案モデルでは,強いベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-09T11:33:16Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。