論文の概要: Tricks for Training Sparse Translation Models
- arxiv url: http://arxiv.org/abs/2110.08246v1
- Date: Fri, 15 Oct 2021 17:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:51:17.879107
- Title: Tricks for Training Sparse Translation Models
- Title(参考訳): スパース翻訳モデルの訓練の試み
- Authors: Dheeru Dua, Shruti Bhosale, Vedanuj Goswami, James Cross, Mike Lewis,
Angela Fan
- Abstract要約: バランスの取れないデータ分布を持つマルチタスク学習は、高リソースタスクへの学習を歪める。
多言語機械翻訳のためのスパースアーキテクチャは、最初から不十分に動作できることがわかりました。
本研究では, 温度加熱機構と高密度プレトレーニングの2つの手法を提案する。
- 参考スコア(独自算出の注目度): 32.83102452475706
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-task learning with an unbalanced data distribution skews model learning
towards high resource tasks, especially when model capacity is fixed and fully
shared across all tasks. Sparse scaling architectures, such as BASELayers,
provide flexible mechanisms for different tasks to have a variable number of
parameters, which can be useful to counterbalance skewed data distributions. We
find that that sparse architectures for multilingual machine translation can
perform poorly out of the box, and propose two straightforward techniques to
mitigate this - a temperature heating mechanism and dense pre-training.
Overall, these methods improve performance on two multilingual translation
benchmarks compared to standard BASELayers and Dense scaling baselines, and in
combination, more than 2x model convergence speed.
- Abstract(参考訳): 不均衡なデータ分散を持つマルチタスク学習は、特にモデルキャパシティが固定され、すべてのタスクで完全に共有された場合に、高リソースタスクへのモデル学習を歪めます。
BASELayersのようなスパーススケーリングアーキテクチャは、さまざまなタスクに対して、変数数のパラメータを持つフレキシブルなメカニズムを提供する。
多言語機械翻訳のためのスパース・アーキテクチャは、そのままでは性能が悪く、温度加熱機構と密集した事前学習という2つの簡単な手法が提案されている。
全体として、これらの手法は標準的なBASELayersとDenseスケーリングベースラインと比較して2つの多言語翻訳ベンチマークの性能を改善し、2倍以上のモデル収束速度を持つ。
関連論文リスト
- Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - Adapting Monolingual Models: Data can be Scarce when Language Similarity
is High [3.249853429482705]
ゼロショット転送学習の性能を,可能な限り少ないデータで検証する。
我々は、低リソースターゲット言語2種類のデータを用いて、BERTベースの4つのモデルの語彙層を再学習する。
高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。
論文 参考訳(メタデータ) (2021-05-06T17:43:40Z) - Hierarchical Transformer for Multilingual Machine Translation [3.441021278275805]
多言語機械翻訳モデルにおけるパラメータ共有戦略の選択は、パラメータ空間の使用方法を決定する。
異なる言語間の関連性の程度を示す言語木に触発され、多言語機械翻訳におけるパラメータ共有に対する新しい一般的なアプローチが最近提案された。
注意深く選択されたトレーニング戦略の場合、階層的アーキテクチャは、パラメータの完全な共有により、バイリンガルモデルや多言語モデルを上回ることができる。
論文 参考訳(メタデータ) (2021-03-05T10:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。