論文の概要: Pruning-then-Expanding Model for Domain Adaptation of Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2103.13678v1
- Date: Thu, 25 Mar 2021 08:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 21:05:35.678859
- Title: Pruning-then-Expanding Model for Domain Adaptation of Neural Machine
Translation
- Title(参考訳): ニューラルネットワーク翻訳の領域適応のためのpruning-then-expandingモデル
- Authors: Shuhao Gu, Yang Feng, Wanying Xie
- Abstract要約: ドメイン適応はニューラルネットワーク翻訳の実践的応用に広く用いられている。
既存のドメイン適応法は、通常、破滅的な忘れ、ドメインの分岐、そしてモデル爆発に苦しむ。
本研究では、翻訳モデルにおけるニューロンやパラメータの重要性に基づいた「分割・征服」手法を提案する。
- 参考スコア(独自算出の注目度): 9.403585397617865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain Adaptation is widely used in practical applications of neural machine
translation, which aims to achieve good performance on both the general-domain
and in-domain. However, the existing methods for domain adaptation usually
suffer from catastrophic forgetting, domain divergence, and model explosion. To
address these three problems, we propose a method of "divide and conquer" which
is based on the importance of neurons or parameters in the translation model.
In our method, we first prune the model and only keep the important neurons or
parameters, making them responsible for both general-domain and in-domain
translation. Then we further train the pruned model supervised by the original
unpruned model with the knowledge distillation method. Last we expand the model
to the original size and fine-tune the added parameters for the in-domain
translation. We conduct experiments on different languages and domains and the
results show that our method can achieve significant improvements compared with
several strong baselines.
- Abstract(参考訳): ドメイン適応は、一般ドメインとインドメインの両方で優れたパフォーマンスを達成することを目的として、ニューラルマシン翻訳の実用的な応用で広く使われている。
しかし、既存のドメイン適応法は通常、破滅的な忘れ、ドメインのばらつき、モデル爆発に悩まされる。
これら3つの問題に対処するために、翻訳モデルにおけるニューロンやパラメータの重要性に基づく「分割と征服」の手法を提案する。
提案手法では,まずモデルをpruneし,重要なニューロンやパラメータのみを保持し,一般ドメインおよびドメイン内翻訳の責任を負う。
次に, 知識蒸留法を用いて, 原型未熟モデルに監督されたプルーンモデルをさらに訓練する。
最後に、モデルを元のサイズに拡張し、ドメイン内翻訳のための追加パラメータを微調整します。
我々は,異なる言語とドメインについて実験を行い,本手法がいくつかの強力なベースラインと比較して有意な改善を得られることを示した。
関連論文リスト
- Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文 参考訳(メタデータ) (2024-07-01T09:45:22Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Normalization Perturbation: A Simple Domain Generalization Method for
Real-World Domain Shifts [133.99270341855728]
実世界のドメインスタイルは環境の変化やセンサノイズによって大きく変化する可能性がある。
深層モデルはトレーニングドメインスタイルしか知らない。
このドメインスタイルのオーバーフィット問題を解決するために,正規化摂動を提案する。
論文 参考訳(メタデータ) (2022-11-08T17:36:49Z) - Understanding Domain Learning in Language Models Through Subpopulation
Analysis [35.16003054930906]
現代のニューラルネットワークアーキテクチャにおいて、異なるドメインがどのようにコード化されているかを調べる。
我々は、自然言語領域、モデルサイズ、使用したトレーニングデータ量との関係を分析する。
論文 参考訳(メタデータ) (2022-10-22T21:12:57Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - Efficient Machine Translation Domain Adaptation [7.747003493657217]
機械翻訳モデルは、ドメイン外のテキストを翻訳する際に苦労する。
ドメイン適応メソッドは、すべての新しいドメインでモデル全体または一部を微調整またはトレーニングすることに焦点を当てます。
我々は、類似したコンテキストがこれまで見られていた場合に、検索を行うのを避ける、単純だが効果的なキャッシュ戦略を導入する。
論文 参考訳(メタデータ) (2022-04-26T21:47:54Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。