論文の概要: From Priest to Doctor: Domain Adaptaion for Low-Resource Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2412.00966v2
- Date: Thu, 30 Jan 2025 20:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:49.756441
- Title: From Priest to Doctor: Domain Adaptaion for Low-Resource Neural Machine Translation
- Title(参考訳): 司祭から医師へ:低リソースニューラルネットワーク翻訳のためのドメイン適応
- Authors: Ali Marashian, Enora Rice, Luke Gessler, Alexis Palmer, Katharina von der Wense,
- Abstract要約: 多くの言語は、高性能汎用ニューラルネットワーク翻訳(NMT)モデルを訓練するのに不十分なデータを持っている。
世界中の言語の多くは、高性能汎用ニューラルマシン翻訳(NMT)モデルをトレーニングするのに不十分なデータを持っている。
- 参考スコア(独自算出の注目度): 3.666125285899499
- License:
- Abstract: Many of the world's languages have insufficient data to train high-performing general neural machine translation (NMT) models, let alone domain-specific models, and often the only available parallel data are small amounts of religious texts. Hence, domain adaptation (DA) is a crucial issue faced by contemporary NMT and has, so far, been underexplored for low-resource languages. In this paper, we evaluate a set of methods from both low-resource NMT and DA in a realistic setting, in which we aim to translate between a high-resource and a low-resource language with access to only: a) parallel Bible data, b) a bilingual dictionary, and c) a monolingual target-domain corpus in the high-resource language. Our results show that the effectiveness of the tested methods varies, with the simplest one, DALI, being most effective. We follow up with a small human evaluation of DALI, which shows that there is still a need for more careful investigation of how to accomplish DA for low-resource NMT.
- Abstract(参考訳): 世界中の言語の多くは、ドメイン固有のモデルを除いて、高性能な汎用ニューラルマシン翻訳(NMT)モデルをトレーニングするのに不十分なデータを持っている。
したがって、ドメイン適応(DA)は、現在のNTTが直面している重要な問題であり、今のところ、低リソース言語では過小評価されている。
本稿では,低リソースNMTとDAの両方の手法を現実的に評価し,高リソース言語と低リソース言語を両立させる手法を提案する。
a) 平行な聖書データ
b) バイリンガル辞書,及び
c) ハイソース言語におけるモノリンガルなターゲットドメインコーパス。
提案手法の有効性は,最も単純であるDALIが有効であることが示唆された。
DALIの人的評価は少ないが,低リソースNMTにおけるDAの達成方法について,より慎重な調査が必要であることが示唆されている。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale [73.69252847606212]
自動符号化(DAE)と逆翻訳(BT)が機械翻訳(MMT)に与える影響について検討する。
モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。
スケールが大きくなるにつれて、DAEは並列のみのベースラインを90Mで過小評価することから、BTのパフォーマンスを1.6Bで収束させ、低リソースでそれを上回るものへと移行する。
論文 参考訳(メタデータ) (2023-05-23T14:48:42Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Low-resource Neural Machine Translation with Cross-modal Alignment [15.416659725808822]
そこで我々は,すべての言語で共有空間を学習するクロスモーダル・コントラスト学習法を提案する。
実験結果とさらなる解析により,少数の画像・テキスト・ペアによる相互・言語間のアライメントを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T04:15:43Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Adapting High-resource NMT Models to Translate Low-resource Related
Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。
本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。
我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文 参考訳(メタデータ) (2021-05-31T16:01:18Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - A Little Pretraining Goes a Long Way: A Case Study on Dependency Parsing
Task for Low-resource Morphologically Rich Languages [14.694800341598368]
低リソース環境における形態素リッチ言語(MRL)の依存性解析に着目する。
これらの課題に対処するために,プリトレーニングのための簡単な補助タスクを提案する。
提案手法の有効性を評価するため,低リソース環境下で10個のMRL実験を行った。
論文 参考訳(メタデータ) (2021-02-12T14:26:58Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。