論文の概要: Label-Free Multi-Domain Machine Translation with Stage-wise Training
- arxiv url: http://arxiv.org/abs/2305.03949v1
- Date: Sat, 6 May 2023 06:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 18:24:56.004304
- Title: Label-Free Multi-Domain Machine Translation with Stage-wise Training
- Title(参考訳): 段階的学習によるラベルフリーマルチドメイン機械翻訳
- Authors: Fan Zhang, Mei Tu, Sangha Kim, Song Liu, Jinyao Yan
- Abstract要約: そこで本研究では,ラベルのないマルチドメイン機械翻訳モデルを提案する。
我々のモデルは3つの部分から構成される: バックボーンモデル、異なるドメインからデータを識別する責任を負うドメイン識別器、デコードされた特徴をジェネリックから特定のものに伝達する専門家のセット。
- 参考スコア(独自算出の注目度): 13.144729358707206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most multi-domain machine translation models rely on domain-annotated data.
Unfortunately, domain labels are usually unavailable in both training processes
and real translation scenarios. In this work, we propose a label-free
multi-domain machine translation model which requires only a few or no
domain-annotated data in training and no domain labels in inference. Our model
is composed of three parts: a backbone model, a domain discriminator taking
responsibility to discriminate data from different domains, and a set of
experts that transfer the decoded features from generic to specific. We design
a stage-wise training strategy and train the three parts sequentially. To
leverage the extra domain knowledge and improve the training stability, in the
discriminator training stage, domain differences are modeled explicitly with
clustering and distilled into the discriminator through a multi-classification
task. Meanwhile, the Gumbel-Max sampling is adopted as the routing scheme in
the expert training stage to achieve the balance of each expert in
specialization and generalization. Experimental results on the
German-to-English translation task show that our model significantly improves
BLEU scores on six different domains and even outperforms most of the models
trained with domain-annotated data.
- Abstract(参考訳): ほとんどのマルチドメイン機械翻訳モデルは、ドメインアノテートデータに依存している。
残念ながら、ドメインラベルは通常、トレーニングプロセスと実際の翻訳シナリオの両方で利用できない。
そこで本研究では,学習時にドメインアノテーション付きデータのみを必要とせず,推論時にドメインラベルを含まないラベルフリーなマルチドメイン機械翻訳モデルを提案する。
我々のモデルは3つの部分から構成される: バックボーンモデル、異なるドメインからデータを識別する責任を負うドメイン識別器、デコードされた特徴をジェネリックから特定のものに伝達する専門家のセット。
段階的なトレーニング戦略をデザインし、3つのパーツを順次トレーニングする。
ドメイン知識を余分に活用し、訓練安定性を向上させるため、識別器訓練段階では、ドメイン差をクラスタリングで明示的にモデル化し、多分類タスクを通じて識別器に蒸留する。
一方、Gumbel-Maxサンプリングは、専門家訓練段階におけるルーティング方式として採用され、専門化と一般化における各専門家のバランスを達成する。
ドイツ語から英語への翻訳タスクにおける実験の結果,6つの異なるドメインのbleuスコアが有意に向上し,ドメインアノテーション付きデータでトレーニングされたモデルよりも優れていた。
関連論文リスト
- A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models [93.92762966380793]
大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
論文 参考訳(メタデータ) (2024-03-13T06:18:48Z) - MultiMatch: Multi-task Learning for Semi-supervised Domain Generalization [55.06956781674986]
我々は、各ソースドメインにいくつかのラベル情報がある半教師付きドメイン一般化タスクの解決に頼っている。
我々は、MultiMatchを提案し、FixMatchをマルチタスク学習フレームワークに拡張し、SSDGのための高品質な擬似ラベルを生成する。
提案手法の有効性を検証し,いくつかのベンチマークDGデータセット上で既存の半教師付き手法とSSDG法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T14:44:33Z) - Domain Generalization via Gradient Surgery [5.38147998080533]
現実のアプリケーションでは、マシンラーニングモデルは、トレーニングとテストドメイン間のデータ分散の変化があるシナリオに直面します。
本研究では,ドメインシフトのシナリオに現れる矛盾する勾配を特徴付けるとともに,新たな勾配合意戦略を考案する。
論文 参考訳(メタデータ) (2021-08-03T16:49:25Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - Curriculum CycleGAN for Textual Sentiment Domain Adaptation with
Multiple Sources [68.31273535702256]
我々は,C-CycleGAN(C-CycleGAN)という,新しいインスタンスレベルのMDAフレームワークを提案する。
C-CycleGANは、(1)異なるドメインからのテキスト入力を連続的な表現空間にエンコードする事前訓練されたテキストエンコーダ、(2)ソースとターゲットドメイン間のギャップを埋めるカリキュラムインスタンスレベルの適応を伴う中間ドメインジェネレータ、(3)中間ドメインで最終感情分類のために訓練されたタスク分類器の3つのコンポーネントから構成される。
3つのベンチマークデータセットに対して広範な実験を行い、最先端のDAアプローチよりも大幅に向上した。
論文 参考訳(メタデータ) (2020-11-17T14:50:55Z) - Target Conditioning for One-to-Many Generation [30.402378832810697]
本研究では,NMTモデルのデコーダを,対象文の領域を表す潜在変数に条件付けすることで,この一対多マッピングを明示的にモデル化することを提案する。
推論では、異なるドメインでデコードすることで、多様な翻訳を生成することができる。
モデルが生成する翻訳の質と多様性を3つの異なるデータセットで評価する。
論文 参考訳(メタデータ) (2020-09-21T11:01:14Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z) - Dual Adversarial Domain Adaptation [6.69797982848003]
教師なしドメイン適応は、ラベル付きソースドメインからラベルなしターゲットドメインへの知識の転送を目的としている。
近年の研究では、判別器が両方のドメインにドメイン情報を備えている場合、複雑なマルチモーダル情報を保存できることが示されている。
ドメインレベルのアライメントとクラスレベルのアライメントを同時に行うために,2Kドル分の出力を持つ判別器を単一識別器に適用する。
論文 参考訳(メタデータ) (2020-01-01T07:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。