論文の概要: AFRIDOC-MT: Document-level MT Corpus for African Languages
- arxiv url: http://arxiv.org/abs/2501.06374v1
- Date: Fri, 10 Jan 2025 22:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:07.211871
- Title: AFRIDOC-MT: Document-level MT Corpus for African Languages
- Title(参考訳): AFRIDOC-MT:アフリカ語用文書レベルMTコーパス
- Authors: Jesujoba O. Alabi, Israel Abebe Azime, Miaoran Zhang, Cristina España-Bonet, Rachel Bawden, Dawei Zhu, David Ifeoluwa Adelani, Clement Oyeleke Odoje, Idris Akinade, Iffat Maab, Davis David, Shamsuddeen Hassan Muhammad, Neo Putini, David O. Ademuyiwa, Andrew Caines, Dietrich Klakow,
- Abstract要約: AFRIDOC-MTは、英語と5つのアフリカ語をカバーする文書レベルのマルチ並列翻訳データセットである。
データセットは334の健康と271の情報技術に関するニュースドキュメントで構成されており、全て英語からこれらの言語に翻訳されている。
- 参考スコア(独自算出の注目度): 24.871863004002616
- License:
- Abstract: This paper introduces AFRIDOC-MT, a document-level multi-parallel translation dataset covering English and five African languages: Amharic, Hausa, Swahili, Yor\`ub\'a, and Zulu. The dataset comprises 334 health and 271 information technology news documents, all human-translated from English to these languages. We conduct document-level translation benchmark experiments by evaluating neural machine translation (NMT) models and large language models (LLMs) for translations between English and these languages, at both the sentence and pseudo-document levels. These outputs are realigned to form complete documents for evaluation. Our results indicate that NLLB-200 achieved the best average performance among the standard NMT models, while GPT-4o outperformed general-purpose LLMs. Fine-tuning selected models led to substantial performance gains, but models trained on sentences struggled to generalize effectively to longer documents. Furthermore, our analysis reveals that some LLMs exhibit issues such as under-generation, repetition of words or phrases, and off-target translations, especially for African languages.
- Abstract(参考訳): 本稿では,AFRIDOC-MTについて紹介する。Amharic,Hausa,Swahili,Yor\`ub\'a,Zuluの5言語を対象とした文書レベルのマルチ並列翻訳データセットである。
データセットは334の健康と271の情報技術に関するニュースドキュメントで構成されており、すべて英語からこれらの言語に翻訳されている。
文と擬文書の両レベルで、英語とこれらの言語間の翻訳のためのニューラルマシン翻訳(NMT)モデルと大規模言語モデル(LLM)を評価することにより、文書レベルの翻訳ベンチマーク実験を行う。
これらの出力は、評価のために完全なドキュメントを作成するように再構成される。
以上の結果から,NLLB-200は標準NMTモデルの中で最も高い平均性能を示し,GPT-4oは汎用LLMよりも優れていた。
微調整された選択されたモデルは大幅な性能向上をもたらしたが、文で訓練されたモデルは、より長い文書に効果的に一般化するのに苦労した。
さらに,LLMの中には,低世代化,単語や句の繰り返し,ターゲット外翻訳,特にアフリカ諸言語において問題となるものも見出されている。
関連論文リスト
- Instruction-Tuned LLMs Succeed in Document-Level MT Without Fine-Tuning -- But BLEU Turns a Blind Eye [15.987448306012167]
大規模言語モデル(LLM)は機械翻訳(MT)を含む様々なNLPタスクに優れている。
本研究は,文書レベル翻訳(docMT)における命令調整型LLMの本質的能力について検討する。
論文 参考訳(メタデータ) (2024-10-28T11:49:58Z) - Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese [47.45957604683302]
事前学習には大量のモノリンガルデータが必要であるが、ほとんど英語以外の言語では利用できない。
我々は、英語とIndic言語を例にとり、Webcrawled monolingual document (clean)を対象言語に翻訳する。
そして、この翻訳データに基づいて28Mと85Mのパラメータを含む言語モデルを訓練する(合成)。
下流の自然言語理解および生成タスクにおけるそれらの性能は、クリーンデータで事前訓練されたLMよりも、NLUタスクで3.56%、NLGタスクで1.51%劣っている。
論文 参考訳(メタデータ) (2024-03-20T14:41:01Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Enhancing Document-level Translation of Large Language Model via
Translation Mixed-instructions [24.025242477280983]
機械翻訳のための既存の大きな言語モデル(LLM)は、典型的には文レベルの翻訳命令に基づいて微調整される。
この課題は、文レベルのカバレッジの問題から生じ、文書のその後の文は転写されないままである。
様々な長さの文レベルと文書レベルの翻訳命令を微調整LLMに結合する手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:28:26Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2021-12-16T08:58:52Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。