論文の概要: Building a Multi-domain Neural Machine Translation Model using Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2004.07324v1
- Date: Wed, 15 Apr 2020 20:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 03:30:32.977195
- Title: Building a Multi-domain Neural Machine Translation Model using Knowledge
Distillation
- Title(参考訳): 知識蒸留を用いた多領域ニューラルマシン翻訳モデルの構築
- Authors: Idriss Mghabbar, Pirashanth Ratnamogan
- Abstract要約: 専門データの欠如により、マルチドメインのニューラルネットワーク翻訳ツールの構築が困難になる。
我々は,知識蒸留と複数の専門教員が効率的にモデルを微調整できる新しい訓練パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lack of specialized data makes building a multi-domain neural machine
translation tool challenging. Although emerging literature dealing with low
resource languages starts to show promising results, most state-of-the-art
models used millions of sentences. Today, the majority of multi-domain
adaptation techniques are based on complex and sophisticated architectures that
are not adapted for real-world applications. So far, no scalable method is
performing better than the simple yet effective mixed-finetuning, i.e
finetuning a generic model with a mix of all specialized data and generic data.
In this paper, we propose a new training pipeline where knowledge distillation
and multiple specialized teachers allow us to efficiently finetune a model
without adding new costs at inference time. Our experiments demonstrated that
our training pipeline allows improving the performance of multi-domain
translation over finetuning in configurations with 2, 3, and 4 domains by up to
2 points in BLEU.
- Abstract(参考訳): 専門データの不足により、マルチドメインのニューラルネットワーク翻訳ツールの構築が困難になる。
低リソース言語を扱う新興文献は有望な結果を示し始めているが、ほとんどの最先端のモデルは数百万の文を使った。
現在、マルチドメイン適応技術の大部分は、現実世界のアプリケーションに適応しない複雑で洗練されたアーキテクチャに基づいている。
これまでのところ、すべての特殊なデータと汎用データの混合でジェネリックモデルを微調整する、単純で効果的な混合ファインタニングよりもパフォーマンスが良い方法は存在しない。
本稿では,知識蒸留と複数の専門教員が,推論時に新たなコストを伴わずにモデルを効率的に微調整できる新たな訓練パイプラインを提案する。
実験の結果,BLEUでは,2,3,4ドメインの微調整によるマルチドメイン翻訳の性能を最大2ポイント向上できることがわかった。
関連論文リスト
- Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。
凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-09-19T21:45:13Z) - Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models [93.92762966380793]
大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
論文 参考訳(メタデータ) (2024-03-13T06:18:48Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z) - Meta Fine-Tuning Neural Language Models for Multi-Domain Text Mining [37.2106265998237]
メタファインチューニング(MFT)と呼ばれる効果的な学習手法を提案する。
MFTは、ニューラルネットワークモデルのための同様のNLPタスクのグループを解決するためのメタラーナーとして機能する。
BERT 上で MFT を実装し,複数のマルチドメインテキストマイニングタスクを解決する。
論文 参考訳(メタデータ) (2020-03-29T11:27:10Z) - Distill, Adapt, Distill: Training Small, In-Domain Models for Neural
Machine Translation [12.949219829789874]
シーケンスレベルの知識蒸留を用いた,小型でメモリ効率のよい機械翻訳モデルを訓練するためのベストプラクティスを探求する。
機械翻訳における大規模な実験結果から, 蒸留を2回, 高い性能で行うことが示唆された。
論文 参考訳(メタデータ) (2020-03-05T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。