論文の概要: A Systematic Analysis of Vocabulary and BPE Settings for Optimal
Fine-tuning of NMT: A Case Study of In-domain Translation
- arxiv url: http://arxiv.org/abs/2303.00722v1
- Date: Wed, 1 Mar 2023 18:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 13:44:36.541314
- Title: A Systematic Analysis of Vocabulary and BPE Settings for Optimal
Fine-tuning of NMT: A Case Study of In-domain Translation
- Title(参考訳): NMTの最適微調整のための語彙とBPE設定の体系的分析 : ドメイン内翻訳を事例として
- Authors: J. Pourmostafa Roshan Sharami, D. Shterionov, P. Spronck
- Abstract要約: 語彙とSWトークン化の選択は、トレーニングとNMTモデルの微調整の両方に重大な影響を与える。
本研究では、SWトークン化と語彙生成のための異なる戦略と、ドメイン固有モデルを微調整するための最適な設定を明らかにするための究極の目標を比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of Neural Machine Translation (NMT) models largely depends
on the vocabulary used at training; small vocabularies can lead to
out-of-vocabulary problems -- large ones, to memory issues. Subword (SW)
tokenization has been successfully employed to mitigate these issues. The
choice of vocabulary and SW tokenization has a significant impact on both
training and fine-tuning an NMT model. Fine-tuning is a common practice in
optimizing an MT model with respect to new data. However, new data potentially
introduces new words (or tokens), which, if not taken into consideration, may
lead to suboptimal performance. In addition, the distribution of tokens in the
new data can differ from the distribution of the original data. As such, the
original SW tokenization model could be less suitable for the new data. Through
a systematic empirical evaluation, in this work we compare different strategies
for SW tokenization and vocabulary generation with the ultimate goal to uncover
an optimal setting for fine-tuning a domain-specific model. Furthermore, we
developed several (in-domain) models, the best of which achieves 6 BLEU points
improvement over the baseline.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)モデルの有効性は、トレーニングで使用される語彙に大きく依存している。
代名詞(SW)トークン化はこれらの問題を緩和するために成功している。
語彙とSWトークン化の選択は、トレーニングとNMTモデルの微調整の両方に重大な影響を与える。
微調整は新しいデータに関してmtモデルを最適化する一般的なプラクティスである。
しかし、新しいデータが新しい単語(またはトークン)をもたらす可能性があり、考慮されていない場合、最適化されないパフォーマンスにつながる可能性がある。
加えて、新しいデータ内のトークンの分布は、元のデータの分布とは異なる可能性がある。
したがって、元のswトークン化モデルは、新しいデータには適さない可能性がある。
本稿では,swトークン化と語彙生成の異なる戦略を,ドメイン特化モデルの微調整に最適な設定を明らかにするための究極の目標と比較する。
さらに,ベースラインよりも6点のBLEU点改善を達成できる複数のドメイン内モデルを構築した。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - DaLC: Domain Adaptation Learning Curve Prediction for Neural Machine
Translation [10.03007605098947]
ニューラルネットワーク翻訳(NMT)モデルのドメイン適応(DA)は、しばしば、ドメイン内の並列データのサンプルに基づいて新しいドメインに適応する訓練済みの一般NMTモデルに依存する。
本稿では,ソース言語におけるドメイン内単言語サンプルに基づいて,DAのパフォーマンスを予測可能なドメイン学習曲線予測(DaLC)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T06:57:48Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Domain Adaptation and Multi-Domain Adaptation for Neural Machine
Translation: A Survey [9.645196221785694]
ニューラルマシン翻訳(nmt)モデルのドメイン適応に対するロバストなアプローチに注目した。
特に、システムが複数のドメインから文を翻訳する必要がある場合を検討します。
我々はNMT研究の他の分野に対するドメイン適応とマルチドメイン適応技術の利点を強調した。
論文 参考訳(メタデータ) (2021-04-14T16:21:37Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Reinforced Curriculum Learning on Pre-trained Neural Machine Translation
Models [20.976165305749777]
我々は,既存のトレーニングセットから影響力のあるデータサンプルを再選択することで,事前学習したNMTモデルを改善するカリキュラムを学習する。
本稿では,決定論的アクタ批判に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T03:40:44Z) - Meta Fine-Tuning Neural Language Models for Multi-Domain Text Mining [37.2106265998237]
メタファインチューニング(MFT)と呼ばれる効果的な学習手法を提案する。
MFTは、ニューラルネットワークモデルのための同様のNLPタスクのグループを解決するためのメタラーナーとして機能する。
BERT 上で MFT を実装し,複数のマルチドメインテキストマイニングタスクを解決する。
論文 参考訳(メタデータ) (2020-03-29T11:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。