Fugu-MT 論文翻訳(概要): Transformer Based Multi-Source Domain Adaptation

論文の概要: Transformer Based Multi-Source Domain Adaptation

arxiv url: http://arxiv.org/abs/2009.07806v1
Date: Wed, 16 Sep 2020 16:56:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 22:53:54.141689
Title: Transformer Based Multi-Source Domain Adaptation
Title（参考訳）: トランスフォーマーを用いたマルチソースドメイン適応
Authors: Dustin Wright and Isabelle Augenstein
Abstract要約: 実践的な機械学習設定では、モデルを予測しなければならないデータは、トレーニングされたデータとは異なる分布から生まれることが多い。本稿では、複数のソースドメインからラベル付きデータに基づいてモデルを訓練し、ラベル付きデータが見られないドメイン上で予測を行う、教師なしマルチソースドメイン適応の問題について検討する。本研究では,大規模な事前学習型変圧器を用いたドメインエキスパートの予測が極めて均質であることを示し,それらの予測を混在させる効果的な関数の学習を困難にしている。
参考スコア（独自算出の注目度）: 53.24606510691877
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In practical machine learning settings, the data on which a model must make predictions often come from a different distribution than the data it was trained on. Here, we investigate the problem of unsupervised multi-source domain adaptation, where a model is trained on labelled data from multiple source domains and must make predictions on a domain for which no labelled data has been seen. Prior work with CNNs and RNNs has demonstrated the benefit of mixture of experts, where the predictions of multiple domain expert classifiers are combined; as well as domain adversarial training, to induce a domain agnostic representation space. Inspired by this, we investigate how such methods can be effectively applied to large pretrained transformer models. We find that domain adversarial training has an effect on the learned representations of these models while having little effect on their performance, suggesting that large transformer-based models are already relatively robust across domains. Additionally, we show that mixture of experts leads to significant performance improvements by comparing several variants of mixing functions, including one novel mixture based on attention. Finally, we demonstrate that the predictions of large pretrained transformer based domain experts are highly homogenous, making it challenging to learn effective functions for mixing their predictions.
Abstract（参考訳）: 実用的な機械学習環境では、モデルが予測しなければならないデータは、トレーニングされたデータとは異なる分布から生じることが多い。本稿では、複数のソースドメインからラベル付きデータに基づいてモデルを訓練し、ラベル付きデータが見られないドメイン上で予測を行う、教師なしマルチソースドメイン適応の問題について検討する。 CNNやRNNとの以前の研究は、複数のドメインエキスパート分類器の予測を組み合わせ、ドメイン非依存の表現空間を誘導するドメイン逆行訓練という、専門家の混合の利点を実証してきた。そこで本研究では,この手法を大規模予習変圧器モデルに効果的に適用する方法について検討する。ドメインの敵対的トレーニングは、これらのモデルの学習表現に影響を及ぼすが、性能にはほとんど影響を与えないことが判明し、大きなトランスフォーマーベースのモデルは、ドメイン間で既に比較的堅牢であることが示唆された。さらに,専門家の混合は,注意に基づく新しい混合を含む複数の混合関数の変種を比較することにより,大幅な性能向上をもたらすことを示す。最後に, 大規模事前学習されたトランスフォーマティブ・ドメイン・エキスパートの予測は非常に均質であり, それらの予測を混合する効果的な関数の習得が困難であることを示す。

関連論文リスト

Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文参考訳（メタデータ） (2025-01-26T15:12:06Z)
Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。 SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文参考訳（メタデータ） (2024-07-01T09:45:22Z)
SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文参考訳（メタデータ） (2023-04-06T17:36:23Z)
Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文参考訳（メタデータ） (2023-02-06T08:11:16Z)
Meta-DMoE: Adapting to Domain Shift by Meta-Distillation from Mixture-of-Experts [33.21435044949033]
既存のほとんどのメソッドは、単一のモデルを使って複数のソースドメインでトレーニングを行います。本稿では,知識蒸留プロセスとして定式化された非教師なし試験時間適応のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-08T02:28:10Z)
Multiple-Source Domain Adaptation via Coordinated Domain Encoders and Paired Classifiers [1.52292571922932]
ドメインシフトの下でのテキスト分類の新しいモデルを提案する。更新表現を利用して、ドメインエンコーダを動的に統合する。また、ターゲットドメインのエラー率を推測するために確率モデルも採用している。
論文参考訳（メタデータ） (2022-01-28T00:50:01Z)
Improving Transferability of Domain Adaptation Networks Through Domain Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文参考訳（メタデータ） (2021-09-06T18:41:19Z)
Self-balanced Learning For Domain Generalization [64.99791119112503]
ドメインの一般化は、モデルが未知の統計を持つ対象のドメインに一般化できるように、マルチドメインのソースデータの予測モデルを学ぶことを目的としている。既存のアプローチのほとんどは、ソースデータがドメインとクラスの両方の観点からバランスよく調整されているという前提の下で開発されている。本稿では,多領域ソースデータの分布の違いによるバイアスを軽減するために,損失の重み付けを適応的に学習する自己均衡型領域一般化フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-31T03:17:54Z)
A Brief Review of Domain Adaptation [1.2043574473965317]
本稿では、ラベルがソースドメインでのみ利用可能となる、教師なしドメイン適応に焦点を当てる。ドメイン適応問題に対処することを目的とした、浅層および深層ドメイン適応アプローチが成功している。
論文参考訳（メタデータ） (2020-10-07T07:05:32Z)
Adaptive Risk Minimization: Learning to Adapt to Domain Shift [109.87561509436016]
ほとんどの機械学習アルゴリズムの基本的な前提は、トレーニングとテストデータは、同じ基礎となる分布から引き出されることである。本研究では,学習データをドメインに構造化し,複数のテスト時間シフトが存在する場合の領域一般化の問題点について考察する。本稿では、適応リスク最小化(ARM)の枠組みを紹介し、モデルがトレーニング領域に適応することを学ぶことで、効果的な適応のために直接最適化される。
論文参考訳（メタデータ） (2020-07-06T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。