論文の概要: Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation?
- arxiv url: http://arxiv.org/abs/2210.11628v1
- Date: Thu, 20 Oct 2022 23:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:36:57.708663
- Title: Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation?
- Title(参考訳): 多言語多言語ニューラルマシン翻訳におけるドメインの言語間変換は可能か?
- Authors: Thuy-Trang Vu, Shahram Khadivi, Xuanli He, Dinh Phung and Gholamreza
Haffari
- Abstract要約: 本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。
マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
- 参考スコア(独自算出の注目度): 52.27798071809941
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previous works mostly focus on either multilingual or multi-domain aspects of
neural machine translation (NMT). This paper investigates whether the domain
information can be transferred across languages on the composition of
multi-domain and multilingual NMT, particularly for the incomplete data
condition where in-domain bitext is missing for some language pairs. Our
results in the curated leave-one-domain-out experiments show that multi-domain
multilingual (MDML) NMT can boost zero-shot translation performance up to +10
gains on BLEU, as well as aid the generalisation of multi-domain NMT to the
missing domain. We also explore strategies for effective integration of
multilingual and multi-domain NMT, including language and domain tag
combination and auxiliary task training. We find that learning domain-aware
representations and adding target-language tags to the encoder leads to
effective MDML-NMT.
- Abstract(参考訳): これまでの研究は主に、ニューラルネットワーク翻訳(NMT)の多言語あるいは多ドメイン的な側面に焦点を当てていた。
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうか,特に言語ペアにドメイン内のbitextが欠落している不完全なデータ条件について検討する。
その結果,マルチドメイン多言語 (MDML) NMT は,BLEU におけるゼロショット翻訳性能を+10ゲインまで向上し,マルチドメイン NMT の欠落領域への一般化を支援することができた。
また,言語とドメインタグの組み合わせや補助的タスクトレーニングを含む,多言語および多ドメインNMTの効果的な統合戦略についても検討する。
ドメイン認識表現の学習や,エンコーダにターゲット言語タグを追加することで,MDML-NMTの有効性が得られることがわかった。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Defining Boundaries: The Impact of Domain Specification on Cross-Language and Cross-Domain Transfer in Machine Translation [0.44601285466405083]
言語間変換学習はニューラルマシン翻訳(NMT)に有望なソリューションを提供する
本稿では,ドメイン仕様と言語要因が伝達効率に与える影響に焦点を当てる。
ポルトガル語、イタリア語、フランス語、チェコ語、ポーランド語、ギリシャ語など、複数の対象言語を評価します。
論文 参考訳(メタデータ) (2024-08-21T18:28:48Z) - $m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine
Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。
ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。
我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文 参考訳(メタデータ) (2022-10-21T12:25:05Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z) - Generalised Unsupervised Domain Adaptation of Neural Machine Translation
with Cross-Lingual Data Selection [34.90952499734384]
そこで本研究では,多言語単一言語コーパスから,欠落言語側のドメイン内文を抽出する言語間データ選択手法を提案する。
提案手法は,多言語BERT上の適応層を比較学習により学習し,ソースとターゲット言語間の表現を整合させる。
我々は,NMTにおける言語間データ選択手法を,3つの言語ペアで5つのドメインにまたがって評価した。
論文 参考訳(メタデータ) (2021-09-09T14:12:12Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。