論文の概要: Can the Variation of Model Weights be used as a Criterion for Self-Paced Multilingual NMT?
- arxiv url: http://arxiv.org/abs/2410.04147v1
- Date: Sat, 5 Oct 2024 12:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 13:51:18.611114
- Title: Can the Variation of Model Weights be used as a Criterion for Self-Paced Multilingual NMT?
- Title(参考訳): 自己ペースト多言語NMTの基準としてモデル重量の変動は利用できるか?
- Authors: Àlex R. Atrio, Alexis Allemann, Ljiljana Dolamic, Andrei Popescu-Belis,
- Abstract要約: トレーニングデータが不足している場合、多くの1対1のニューラルマシン翻訳システムが1対1のシステムを改善する。
本稿では,そのようなシステムを訓練する際,ミニバッチ言語を選択するための新しいアルゴリズムを設計・テストする。
- 参考スコア(独自算出の注目度): 7.330978520551704
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many-to-one neural machine translation systems improve over one-to-one systems when training data is scarce. In this paper, we design and test a novel algorithm for selecting the language of minibatches when training such systems. The algorithm changes the language of the minibatch when the weights of the model do not evolve significantly, as measured by the smoothed KL divergence between all layers of the Transformer network. This algorithm outperforms the use of alternating monolingual batches, but not the use of shuffled batches, in terms of translation quality (measured with BLEU and COMET) and convergence speed.
- Abstract(参考訳): トレーニングデータが不足している場合、多くの1対1のニューラルマシン翻訳システムが1対1のシステムを改善する。
本稿では,そのようなシステムを訓練する際,ミニバッチ言語を選択するための新しいアルゴリズムを設計・テストする。
このアルゴリズムは、トランスフォーマーネットワークの全層間のスムーズなKL分散によって測定されるように、モデルの重みが著しく進化しない場合、ミニバッチの言語を変化させる。
このアルゴリズムは単言語バッチを交互に使用するよりも優れているが、変換品質(BLEUとCOMETで測定される)と収束速度の点でシャッフルバッチは使用しない。
関連論文リスト
- Using Machine Translation to Augment Multilingual Classification [0.0]
複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。
翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。
論文 参考訳(メタデータ) (2024-05-09T00:31:59Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Learning Kernel-Smoothed Machine Translation with Retrieved Examples [30.17061384497846]
データベースから類似の例を検索して翻訳プロセスを導く既存の非パラメトリックアプローチは有望であるが、検索した例に過度に適合する傾向にある。
我々は、ニューラルネットワーク翻訳モデルをオンラインで適応するための効果的なアプローチであるKSTER(Kernel-Smoothed Translation with Example Retrieval)を学習することを提案する。
論文 参考訳(メタデータ) (2021-09-21T06:42:53Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Bilingual Mutual Information Based Adaptive Training for Neural Machine
Translation [38.83163343372786]
本稿では,両言語主義の観点から,目標トークンの学習難度を計測する,新しいバイリンガル相互情報(BMI)に基づく適応目的を提案する。
WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2021-05-26T12:54:24Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Deep Transformers with Latent Depth [42.33955275626127]
Transformerモデルは、多くのシーケンスモデリングタスクにおいて最先端のパフォーマンスを達成した。
本稿では,層選択の後方分布を学習することで,どの層を使うかを自動的に学習する確率的フレームワークを提案する。
多言語機械翻訳のための1つの共有トランスフォーマーネットワークを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T07:13:23Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。