論文の概要: Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation
- arxiv url: http://arxiv.org/abs/2407.01126v1
- Date: Mon, 1 Jul 2024 09:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:09:47.015953
- Title: Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation
- Title(参考訳): マルチドメインニューラルマシン翻訳におけるスパースミクチャー・オブ・エクササイズの可能性の検討
- Authors: Nadezhda Chirkova, Vassilina Nikoulina, Jean-Luc Meunier, Alexandre Bérard,
- Abstract要約: トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
- 参考スコア(独自算出の注目度): 59.41178047749177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on multi-domain Neural Machine Translation, with the goal of developing efficient models which can handle data from various domains seen during training and are robust to domains unseen during training. We hypothesize that Sparse Mixture-of-Experts (SMoE) models are a good fit for this task, as they enable efficient model scaling, which helps to accommodate a variety of multi-domain data, and allow flexible sharing of parameters between domains, potentially enabling knowledge transfer between similar domains and limiting negative transfer. We conduct a series of experiments aimed at validating the utility of SMoE for the multi-domain scenario, and find that a straightforward width scaling of Transformer is a simpler and surprisingly more efficient approach in practice, and reaches the same performance level as SMoE. We also search for a better recipe for robustness of multi-domain systems, highlighting the importance of mixing-in a generic domain, i.e. Paracrawl, and introducing a simple technique, domain randomization.
- Abstract(参考訳): 我々は、トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見えないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に焦点を当てている。
SMOE(Sparse Mixture-of-Experts)モデルは、様々なマルチドメインデータに対応し、ドメイン間のパラメータのフレキシブルな共有を可能にし、類似ドメイン間の知識伝達を可能にし、負の転送を制限する、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
また、マルチドメインシステムのロバスト性向上のためのより良いレシピを探索し、汎用ドメイン、すなわちパラクロールの混合の重要性を強調し、シンプルなテクニックであるドメインランダム化を導入する。
関連論文リスト
- Virtual Classification: Modulating Domain-Specific Knowledge for
Multidomain Crowd Counting [67.38137379297717]
マルチドメインのクラウドカウントは、複数の多様なデータセットの一般的なモデルを学ぶことを目的としている。
ディープネットワークは、ドメインバイアスとして知られるすべてのドメインではなく、支配的なドメインの分布をモデル化することを好む。
マルチドメイン群カウントにおけるドメインバイアス問題を処理するために,MDKNet(Modulating Domain-specific Knowledge Network)を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:49:04Z) - DynaGAN: Dynamic Few-shot Adaptation of GANs to Multiple Domains [26.95350186287616]
複数のドメインへのドメイン適応は、いくつかのトレーニングイメージから複数のドメインにまたがる複雑なイメージ分布を学習することを目的としている。
複数のターゲットドメインに対する新規な数ショットドメイン適応法であるDynaGANを提案する。
論文 参考訳(メタデータ) (2022-11-26T12:46:40Z) - Towards Unsupervised Domain Adaptation via Domain-Transformer [0.0]
教師なしドメイン適応(UDA)のためのドメイン変換器(DoT)を提案する。
DoTは新しい視点から、CNNバックボーンとTransformerのコアアテンションメカニズムを統合する。
ドメイン間の局所的な意味的一貫性を実現し、そこではドメインレベルの注意と多様体の正規化が探索される。
論文 参考訳(メタデータ) (2022-02-24T02:30:15Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z) - T-SVDNet: Exploring High-Order Prototypical Correlations for
Multi-Source Domain Adaptation [41.356774580308986]
マルチソースドメイン適応の課題に対処するために,T-SVDNetという新しい手法を提案する。
複数のドメインとカテゴリの高次相関は、ドメインギャップを埋めるため、完全に検討されている。
ノイズ源データによる負の伝達を回避するため,新しい不確実性を考慮した重み付け手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T06:33:05Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z) - Transformer Based Multi-Source Domain Adaptation [53.24606510691877]
実践的な機械学習設定では、モデルを予測しなければならないデータは、トレーニングされたデータとは異なる分布から生まれることが多い。
本稿では、複数のソースドメインからラベル付きデータに基づいてモデルを訓練し、ラベル付きデータが見られないドメイン上で予測を行う、教師なしマルチソースドメイン適応の問題について検討する。
本研究では,大規模な事前学習型変圧器を用いたドメインエキスパートの予測が極めて均質であることを示し,それらの予測を混在させる効果的な関数の学習を困難にしている。
論文 参考訳(メタデータ) (2020-09-16T16:56:23Z) - Multi-Source Domain Adaptation for Text Classification via
DistanceNet-Bandits [101.68525259222164]
本研究では,NLPタスクのコンテキストにおいて,サンプル推定に基づく領域間の相違を特徴付ける様々な距離ベース尺度について検討する。
タスクの損失関数と協調して最小化するために,これらの距離測度を付加的な損失関数として用いるディスタンスネットモデルを開発した。
マルチアーム・バンド・コントローラを用いて複数のソース・ドメインを動的に切り替えるDistanceNet-Banditモデルに拡張する。
論文 参考訳(メタデータ) (2020-01-13T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。