論文の概要: Predicting Machine Translation Performance on Low-Resource Languages:
The Role of Domain Similarity
- arxiv url: http://arxiv.org/abs/2402.02633v1
- Date: Sun, 4 Feb 2024 22:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:23:11.776446
- Title: Predicting Machine Translation Performance on Low-Resource Languages:
The Role of Domain Similarity
- Title(参考訳): 低リソース言語における機械翻訳性能の予測:ドメイン類似性の役割
- Authors: Eric Khiu, Hasti Toossi, David Anugraha, Jinyu Liu, Jiaxu Li, Juan
Armando Parra Flores, Leandro Acros Roman, A. Seza Do\u{g}ru\"oz, En-Shiun
Annie Lee
- Abstract要約: 本稿では,微調整コーパスのサイズ,微調整コーパスとテストコーパスのドメイン類似度,およびソース言語とターゲット言語の言語類似度について検討する。
結果から,ドメインの類似性は機械翻訳モデルの性能予測に最も重要な影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 1.461103863196921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning and testing a multilingual large language model is expensive and
challenging for low-resource languages (LRLs). While previous studies have
predicted the performance of natural language processing (NLP) tasks using
machine learning methods, they primarily focus on high-resource languages,
overlooking LRLs and shifts across domains. Focusing on LRLs, we investigate
three factors: the size of the fine-tuning corpus, the domain similarity
between fine-tuning and testing corpora, and the language similarity between
source and target languages. We employ classical regression models to assess
how these factors impact the model's performance. Our results indicate that
domain similarity has the most critical impact on predicting the performance of
Machine Translation models.
- Abstract(参考訳): 多言語大言語モデルの微調整とテストは、低リソース言語(LRL)では高価で難しい。
従来の研究では、機械学習手法を用いた自然言語処理(NLP)タスクのパフォーマンスを予測していたが、主に高リソース言語に焦点を当て、LRLを見下ろし、ドメイン間のシフトを回避した。
LRLに着目し,細調整コーパスのサイズ,細調整コーパスとテストコーパスのドメイン類似度,およびソース言語とターゲット言語の言語類似度について検討した。
これらの要因がモデルのパフォーマンスに与える影響を評価するために、古典的な回帰モデルを使用します。
結果から,ドメインの類似性は機械翻訳モデルの性能予測に最も重要な影響を及ぼすことが示された。
関連論文リスト
- Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Analysing Cross-Lingual Transfer in Low-Resourced African Named Entity
Recognition [0.10641561702689348]
低リソース言語10言語間の言語間移動学習の特性について検討する。
一つの言語でうまく機能するモデルは、他の言語への一般化を犠牲にして、しばしばそうする。
ソースとターゲットデータセット間で重複するデータの量は、言語間の地理的あるいは遺伝的距離よりも、転送性能の予測器として優れている。
論文 参考訳(メタデータ) (2023-09-11T08:56:47Z) - Scaling Laws for Multilingual Neural Machine Translation [45.620062316968976]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文 参考訳(メタデータ) (2023-02-19T18:43:24Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - An Empirical Study of Factors Affecting Language-Independent Models [11.976665726887733]
言語に依存しないモデルは、モノリンガルデータを用いて訓練されたモデルに匹敵するか、さらに優れることを示す。
我々は,多くの異なる言語で言語に依存しないモデルを実験し,それらが類型的に類似した言語に適していることを示す。
論文 参考訳(メタデータ) (2019-12-30T22:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。