Fugu-MT 論文翻訳(概要): Distill, Adapt, Distill: Training Small, In-Domain Models for Neural Machine Translation

論文の概要: Distill, Adapt, Distill: Training Small, In-Domain Models for Neural Machine Translation

arxiv url: http://arxiv.org/abs/2003.02877v3
Date: Tue, 23 Jun 2020 17:21:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 07:09:50.885446
Title: Distill, Adapt, Distill: Training Small, In-Domain Models for Neural Machine Translation
Title（参考訳）: 希釈,適応,希釈:ニューラルマシン翻訳のための小さな,ドメイン内モデルを訓練する
Authors: Mitchell A. Gordon, Kevin Duh
Abstract要約: シーケンスレベルの知識蒸留を用いた,小型でメモリ効率のよい機械翻訳モデルを訓練するためのベストプラクティスを探求する。機械翻訳における大規模な実験結果から, 蒸留を2回, 高い性能で行うことが示唆された。
参考スコア（独自算出の注目度）: 12.949219829789874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We explore best practices for training small, memory efficient machine translation models with sequence-level knowledge distillation in the domain adaptation setting. While both domain adaptation and knowledge distillation are widely-used, their interaction remains little understood. Our large-scale empirical results in machine translation (on three language pairs with three domains each) suggest distilling twice for best performance: once using general-domain data and again using in-domain data with an adapted teacher.
Abstract（参考訳）: ドメイン適応設定におけるシーケンスレベルの知識蒸留を用いた,小型でメモリ効率のよい機械翻訳モデルを訓練するためのベストプラクティスを探る。ドメイン適応と知識蒸留の両方が広く使われているが、それらの相互作用はほとんど理解されていない。機械翻訳による大規模な実験結果(それぞれ3つのドメインを持つ3つの言語ペアで)では、最高のパフォーマンスのために2回蒸留することを提案しています。

関連論文リスト

Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文参考訳（メタデータ） (2025-01-26T15:12:06Z)
Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。 SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文参考訳（メタデータ） (2024-07-01T09:45:22Z)
Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文参考訳（メタデータ） (2023-02-06T08:11:16Z)
$m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文参考訳（メタデータ） (2022-10-21T12:25:05Z)
Finding the Right Recipe for Low Resource Domain Adaptation in Neural Machine Translation [7.2283509416724465]
一般的な翻訳モデルは、しばしば専門領域で正確な翻訳を生成するのに苦労する。ドメイン適応に対するモノリンガルおよび並列データアプローチの詳細な実験を行った。私たちの研究には、消費者電子、臨床、バイオメディカルの3つの領域が含まれています。
論文参考訳（メタデータ） (2022-06-02T16:38:33Z)
Improving both domain robustness and domain adaptability in machine translation [69.15496930090403]
ニューラルネットワーク翻訳におけるドメイン適応の2つの問題に対処する。まず、トレーニングデータからドメインの堅牢性、すなわち両方のドメインの品質に到達したいと考えています。第二に、システムに適応性を持たせること、つまり、数百のドメイン内並列文でシステムを微調整できるようにすることが望まれます。
論文参考訳（メタデータ） (2021-12-15T17:34:59Z)
Non-Parametric Unsupervised Domain Adaptation for Neural Machine Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-14T11:50:01Z)
Domain Adaptation and Multi-Domain Adaptation for Neural Machine Translation: A Survey [9.645196221785694]
ニューラルマシン翻訳(nmt)モデルのドメイン適応に対するロバストなアプローチに注目した。特に、システムが複数のドメインから文を翻訳する必要がある場合を検討します。我々はNMT研究の他の分野に対するドメイン適応とマルチドメイン適応技術の利点を強調した。
論文参考訳（メタデータ） (2021-04-14T16:21:37Z)
Pruning-then-Expanding Model for Domain Adaptation of Neural Machine Translation [9.403585397617865]
ドメイン適応はニューラルネットワーク翻訳の実践的応用に広く用いられている。既存のドメイン適応法は、通常、破滅的な忘れ、ドメインの分岐、そしてモデル爆発に苦しむ。本研究では、翻訳モデルにおけるニューロンやパラメータの重要性に基づいた「分割・征服」手法を提案する。
論文参考訳（メタデータ） (2021-03-25T08:57:09Z)
Unsupervised Neural Machine Translation for Low-Resource Domains via Meta-Learning [27.86606560170401]
unsupervised neural machine translation (UNMT) のための新しいメタ学習アルゴリズムを提案する。私たちは、少量のトレーニングデータだけを利用して、別のドメインに適応するようにモデルを訓練します。我々のモデルは、最大2-4 BLEUスコアの転送学習に基づくアプローチを超越している。
論文参考訳（メタデータ） (2020-10-18T17:54:13Z)
Building a Multi-domain Neural Machine Translation Model using Knowledge Distillation [0.0]
専門データの欠如により、マルチドメインのニューラルネットワーク翻訳ツールの構築が困難になる。我々は,知識蒸留と複数の専門教員が効率的にモデルを微調整できる新しい訓練パイプラインを提案する。
論文参考訳（メタデータ） (2020-04-15T20:21:19Z)
A Simple Baseline to Semi-Supervised Domain Adaptation for Machine Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。 NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文参考訳（メタデータ） (2020-01-22T16:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。