論文の概要: Defining Boundaries: The Impact of Domain Specification on Cross-Language and Cross-Domain Transfer in Machine Translation
- arxiv url: http://arxiv.org/abs/2408.11926v1
- Date: Wed, 21 Aug 2024 18:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:06:47.047737
- Title: Defining Boundaries: The Impact of Domain Specification on Cross-Language and Cross-Domain Transfer in Machine Translation
- Title(参考訳): 境界の定義: ドメイン仕様が機械翻訳におけるクロスランゲージとクロスドメイン転送に与える影響
- Authors: Lia Shahnazaryan, Meriem Beloucif,
- Abstract要約: 言語間変換学習は、高ソース言語のデータを活用することで、有望なソリューションを提供する。
本稿では,ドメイン関連データの微調整によるニューラルネットワーク翻訳(NMT)のドメイン固有品質の向上について検討する。
本研究は,特に医学,法学,ITなどの専門分野において,ドメイン固有の翻訳品質が著しく向上していることを明らかにする。
- 参考スコア(独自算出の注目度): 0.44601285466405083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in neural machine translation (NMT) have revolutionized the field, yet the dependency on extensive parallel corpora limits progress for low-resource languages. Cross-lingual transfer learning offers a promising solution by utilizing data from high-resource languages but often struggles with in-domain NMT. In this paper, we investigate three pivotal aspects: enhancing the domain-specific quality of NMT by fine-tuning domain-relevant data from different language pairs, identifying which domains are transferable in zero-shot scenarios, and assessing the impact of language-specific versus domain-specific factors on adaptation effectiveness. Using English as the source language and Spanish for fine-tuning, we evaluate multiple target languages including Portuguese, Italian, French, Czech, Polish, and Greek. Our findings reveal significant improvements in domain-specific translation quality, especially in specialized fields such as medical, legal, and IT, underscoring the importance of well-defined domain data and transparency of the experiment setup in in-domain transfer learning.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)の最近の進歩はこの分野に革命をもたらしたが、大規模な並列コーパスへの依存は低リソース言語の進歩を制限する。
言語間変換学習は、高ソース言語からのデータを活用することで有望なソリューションを提供するが、しばしばドメイン内のNMTと競合する。
本稿では,異なる言語ペアからドメイン関連データを微調整することでNMTのドメイン特質を高めること,ゼロショットシナリオでどのドメインを転送可能かを特定すること,言語特化要因とドメイン特化要因が適応性に与える影響を評価すること,の3つの重要な側面について検討する。
ポルトガル語,イタリア語,フランス語,チェコ語,ポーランド語,ギリシャ語など,複数の対象言語を評価する。
本研究は,特に医学,法学,ITなどの専門分野において,ドメイン固有の翻訳品質が著しく向上していることを明らかにする。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - On the Transferability of Visually Grounded PCFGs [35.64371385720051]
ビジュアルグラウンドPCFGcitepzhao-titov-2020-visually
我々は、モデルがソースドメイン上で訓練され、ターゲットドメインに直接適用されるゼロショット転送学習環境を、それ以上の訓練をすることなく検討する。
トレーニングドメインと同じようなドメインでテキストに視覚的接地を使用することの利点は、リモートドメインへの転送に失敗することである。
論文 参考訳(メタデータ) (2023-10-21T20:19:51Z) - Domain Mismatch Doesn't Always Prevent Cross-Lingual Transfer Learning [51.232774288403114]
言語間移動学習は、ゼロショット言語間分類において驚くほど効果的である。
本稿では,言語間移動におけるドメインミスマッチの影響の多くを,単純なレギュレータが克服できることを示す。
論文 参考訳(メタデータ) (2022-11-30T01:24:33Z) - Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation? [52.27798071809941]
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。
マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
論文 参考訳(メタデータ) (2022-10-20T23:13:54Z) - Characterization of effects of transfer learning across domains and
languages [0.0]
事前学習されたニューラルネットワークモデルからのトランスファーラーニング(TL)は、長年にわたって強力なテクニックとして現れてきた。
本研究では,TLが3つの自然言語処理(NLP)タスクに対して,一般的な事前学習モデルの性能にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2022-10-03T17:17:07Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Continuous and Diverse Image-to-Image Translation via Signed Attribute
Vectors [120.13149176992896]
本稿では,様々な領域にまたがる多様な写像経路の連続的な変換を可能にする,効果的に署名された属性ベクトルを提案する。
連続翻訳結果の視覚的品質を高めるため、2つの符号対称属性ベクトル間の軌跡を生成する。
論文 参考訳(メタデータ) (2020-11-02T18:59:03Z) - From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual
Transfer with Multilingual Transformers [62.637055980148816]
言語モデリングの目的によって事前訓練された多言語トランスフォーマーは、NLPの事実上のデフォルト転送パラダイムとなっている。
膨大な多言語変換器による言語間変換は,リソースリーンシナリオや遠方言語では著しく効果が低いことを示す。
論文 参考訳(メタデータ) (2020-05-01T22:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。