論文の概要: Machine Translation for Ge'ez Language
- arxiv url: http://arxiv.org/abs/2311.14530v1
- Date: Fri, 24 Nov 2023 14:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 14:46:24.984278
- Title: Machine Translation for Ge'ez Language
- Title(参考訳): ge'ez言語の機械翻訳
- Authors: Aman Kassahun Wassie
- Abstract要約: Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
本研究では,関連言語からの移動学習,大規模事前学習モデルの微調整,ファジィマッチングを用いた数ショット翻訳のための大規模言語モデルなど,ゲエズMTを改善するための様々な手法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation (MT) for low-resource languages such as Ge'ez, an ancient
language that is no longer spoken in daily life, faces challenges such as
out-of-vocabulary words, domain mismatches, and lack of sufficient labeled
training data. In this work, we explore various methods to improve Ge'ez MT,
including transfer-learning from related languages, optimizing shared
vocabulary and token segmentation approaches, finetuning large pre-trained
models, and using large language models (LLMs) for few-shot translation with
fuzzy matches. We develop a multilingual neural machine translation (MNMT)
model based on languages relatedness, which brings an average performance
improvement of about 4 BLEU compared to standard bilingual models. We also
attempt to finetune the NLLB-200 model, one of the most advanced translation
models available today, but find that it performs poorly with only 4k training
samples for Ge'ez. Furthermore, we experiment with using GPT-3.5, a
state-of-the-art LLM, for few-shot translation with fuzzy matches, which
leverages embedding similarity-based retrieval to find context examples from a
parallel corpus. We observe that GPT-3.5 achieves a remarkable BLEU score of
9.2 with no initial knowledge of Ge'ez, but still lower than the MNMT baseline
of 15.2. Our work provides insights into the potential and limitations of
different approaches for low-resource and ancient language MT.
- Abstract(参考訳): 日常的に話されていない古代言語であるGe'ezのような低リソース言語のための機械翻訳(MT)は、語彙外単語、ドメインミスマッチ、十分なラベル付きトレーニングデータの欠如といった課題に直面している。
本研究では,関連言語からの移動学習,共有語彙とトークンセグメンテーションアプローチの最適化,大規模事前学習モデルの微調整,ファジィマッチングを用いた数ショット翻訳のための大規模言語モデル(LLM)など,ゲエズMTを改善するための様々な手法を検討する。
本研究では,言語関係に基づく多言語ニューラルマシン翻訳(mnmt)モデルを開発し,従来のバイリンガルモデルと比較して約4 bleuの性能向上を実現する。
我々はまた、現在利用可能な最も先進的な翻訳モデルの1つであるnllb-200モデルを微調整しようとしているが、ge'ezの4kトレーニングサンプルだけではうまく機能しないことがわかった。
さらに, ファジィマッチングを用いた数ショット翻訳において, GPT-3.5を用いて並列コーパスからコンテキスト例を見つけることを試みた。
GPT-3.5 は Ge'ez の初歩的な知識を持たない 9.2 の BLEU スコアを達成するが, MNMT の基準値 15.2 よりは低い。
我々の研究は、低リソースおよび古代言語MTに対する様々なアプローチの可能性と限界についての洞察を提供する。
関連論文リスト
- Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。
クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。
私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文 参考訳(メタデータ) (2024-10-31T14:09:50Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。