論文の概要: Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation
- arxiv url: http://arxiv.org/abs/2407.01126v1
- Date: Mon, 1 Jul 2024 09:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:09:47.015953
- Title: Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation
- Title(参考訳): マルチドメインニューラルマシン翻訳におけるスパースミクチャー・オブ・エクササイズの可能性の検討
- Authors: Nadezhda Chirkova, Vassilina Nikoulina, Jean-Luc Meunier, Alexandre Bérard,
- Abstract要約: トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
- 参考スコア(独自算出の注目度): 59.41178047749177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on multi-domain Neural Machine Translation, with the goal of developing efficient models which can handle data from various domains seen during training and are robust to domains unseen during training. We hypothesize that Sparse Mixture-of-Experts (SMoE) models are a good fit for this task, as they enable efficient model scaling, which helps to accommodate a variety of multi-domain data, and allow flexible sharing of parameters between domains, potentially enabling knowledge transfer between similar domains and limiting negative transfer. We conduct a series of experiments aimed at validating the utility of SMoE for the multi-domain scenario, and find that a straightforward width scaling of Transformer is a simpler and surprisingly more efficient approach in practice, and reaches the same performance level as SMoE. We also search for a better recipe for robustness of multi-domain systems, highlighting the importance of mixing-in a generic domain, i.e. Paracrawl, and introducing a simple technique, domain randomization.
- Abstract(参考訳): 我々は、トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見えないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に焦点を当てている。
SMOE(Sparse Mixture-of-Experts)モデルは、様々なマルチドメインデータに対応し、ドメイン間のパラメータのフレキシブルな共有を可能にし、類似ドメイン間の知識伝達を可能にし、負の転送を制限する、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
また、マルチドメインシステムのロバスト性向上のためのより良いレシピを探索し、汎用ドメイン、すなわちパラクロールの混合の重要性を強調し、シンプルなテクニックであるドメインランダム化を導入する。
関連論文リスト
- Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - DynaGAN: Dynamic Few-shot Adaptation of GANs to Multiple Domains [26.95350186287616]
複数のドメインへのドメイン適応は、いくつかのトレーニングイメージから複数のドメインにまたがる複雑なイメージ分布を学習することを目的としている。
複数のターゲットドメインに対する新規な数ショットドメイン適応法であるDynaGANを提案する。
論文 参考訳(メタデータ) (2022-11-26T12:46:40Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z) - T-SVDNet: Exploring High-Order Prototypical Correlations for
Multi-Source Domain Adaptation [41.356774580308986]
マルチソースドメイン適応の課題に対処するために,T-SVDNetという新しい手法を提案する。
複数のドメインとカテゴリの高次相関は、ドメインギャップを埋めるため、完全に検討されている。
ノイズ源データによる負の伝達を回避するため,新しい不確実性を考慮した重み付け手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T06:33:05Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z) - Transformer Based Multi-Source Domain Adaptation [53.24606510691877]
実践的な機械学習設定では、モデルを予測しなければならないデータは、トレーニングされたデータとは異なる分布から生まれることが多い。
本稿では、複数のソースドメインからラベル付きデータに基づいてモデルを訓練し、ラベル付きデータが見られないドメイン上で予測を行う、教師なしマルチソースドメイン適応の問題について検討する。
本研究では,大規模な事前学習型変圧器を用いたドメインエキスパートの予測が極めて均質であることを示し,それらの予測を混在させる効果的な関数の学習を困難にしている。
論文 参考訳(メタデータ) (2020-09-16T16:56:23Z) - Multi-Source Domain Adaptation for Text Classification via
DistanceNet-Bandits [101.68525259222164]
本研究では,NLPタスクのコンテキストにおいて,サンプル推定に基づく領域間の相違を特徴付ける様々な距離ベース尺度について検討する。
タスクの損失関数と協調して最小化するために,これらの距離測度を付加的な損失関数として用いるディスタンスネットモデルを開発した。
マルチアーム・バンド・コントローラを用いて複数のソース・ドメインを動的に切り替えるDistanceNet-Banditモデルに拡張する。
論文 参考訳(メタデータ) (2020-01-13T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。