論文の概要: Domain Curricula for Code-Switched MT at MixMT 2022
- arxiv url: http://arxiv.org/abs/2210.17463v1
- Date: Mon, 31 Oct 2022 16:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:17:27.499005
- Title: Domain Curricula for Code-Switched MT at MixMT 2022
- Title(参考訳): MixMT 2022におけるコードスイッチトMTのためのドメインキュリキュラ
- Authors: Lekan Raheem and Maab Elrashid
- Abstract要約: We present our approach and results for the Code-mixed Machine Translation (MixMT) shared task at WMT 2022。
このタスクは2つのサブタスクで構成されており、モノリンガルからコードミキシング機械翻訳(Subtask-1)と、モノリンガル機械翻訳(Subtask-2)にコードミキシングされる。
我々は,複数分野のテキストを事前学習と微調整によって共同学習し,文アライメントの目的と組み合わせた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multilingual colloquial settings, it is a habitual occurrence to compose
expressions of text or speech containing tokens or phrases of different
languages, a phenomenon popularly known as code-switching or code-mixing (CMX).
We present our approach and results for the Code-mixed Machine Translation
(MixMT) shared task at WMT 2022: the task consists of two subtasks, monolingual
to code-mixed machine translation (Subtask-1) and code-mixed to monolingual
machine translation (Subtask-2). Most non-synthetic code-mixed data are from
social media but gathering a significant amount of this kind of data would be
laborious and this form of data has more writing variation than other domains,
so for both subtasks, we experimented with data schedules for out-of-domain
data. We jointly learn multiple domains of text by pretraining and fine-tuning,
combined with a sentence alignment objective. We found that switching between
domains caused improved performance in the domains seen earliest during
training, but depleted the performance on the remaining domains. A continuous
training run with strategically dispensed data of different domains showed a
significantly improved performance over fine-tuning.
- Abstract(参考訳): 多言語の口語環境では、異なる言語のトークンやフレーズを含むテキストや音声の表現を構成する習慣的な発生であり、コードスイッチやコードミックス(cmx)として知られる現象である。
我々は、wmt 2022において、コード混合機械翻訳(mixmt)共有タスクのアプローチと結果について述べる: このタスクは、モノリンガルからコード混合機械翻訳(subtask-1)と、コード混合からモノリンガルへの機械翻訳(subtask-2)の2つのサブタスクから構成される。
非合成のコード混合データのほとんどはソーシャルメディアからのものですが、この種のデータ収集にはかなりの労力がかかり、この形式のデータは他のドメインよりも書き込みのバリエーションが多いため、両方のサブタスクにおいて、ドメイン外データのスケジュールを実験しました。
事前学習と微調整により,文章の複数の領域を学習し,文のアライメント目標と組み合わせる。
ドメイン間の切り替えによって、トレーニングの最初期に見られたドメインのパフォーマンスが向上したが、残りのドメインのパフォーマンスは損なわれた。
異なるドメインのデータを戦略的に提供した継続的トレーニング実行は、微調整よりも大幅にパフォーマンスが向上した。
関連論文リスト
- A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task
Information Retrieval [5.97515243922116]
本稿では,多言語多タスク情報検索におけるMRL2023共有タスクのためのチャールズ大学システムを提案する。
共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答のためのシステムを開発することである。
両方のサブタスクに対する私たちのソリューションは、翻訳テストのアプローチに依存しています。
論文 参考訳(メタデータ) (2023-10-25T10:22:49Z) - A General-Purpose Multilingual Document Encoder [9.868221447090855]
階層トランスモデル(HMDE)として多言語文書エンコーダを事前訓練する。
トレーニングデータを作成するために、ウィキペディアを同等のドキュメントのソースとして利用しています。
言語間文書レベルのタスクにおいて,HMDEの有効性について検討した。
論文 参考訳(メタデータ) (2023-05-11T17:55:45Z) - Domain Mismatch Doesn't Always Prevent Cross-Lingual Transfer Learning [51.232774288403114]
言語間移動学習は、ゼロショット言語間分類において驚くほど効果的である。
本稿では,言語間移動におけるドメインミスマッチの影響の多くを,単純なレギュレータが克服できることを示す。
論文 参考訳(メタデータ) (2022-11-30T01:24:33Z) - Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation? [52.27798071809941]
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。
マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
論文 参考訳(メタデータ) (2022-10-20T23:13:54Z) - Extreme Multi-Domain, Multi-Task Learning With Unified Text-to-Text
Transfer Transformers [0.0]
マルチドメインテキスト・テキスト・トランスフォーマ(MD-T5)を用いたマルチドメインマルチタスク学習の動作について検討した。
我々は,ベルト型関節前訓練+連続微調整,GPT型関節前訓練+連続微調整,GPT型関節前訓練+連続微調整の3つの一般的なトレーニング戦略を用いて実験を行った。
負の知識伝達と破滅的な忘れは,すべてのモデルにおいて依然として大きな課題であるが,GPTスタイルのジョイントプレトレーニング+ジョイントファインタニング戦略はマルチドメイン・マルチタスク学習において最も有望であることを示した。
論文 参考訳(メタデータ) (2022-09-21T04:21:27Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。