Fugu-MT 論文翻訳(概要): AFRIDOC-MT: Document-level MT Corpus for African Languages

論文の概要: AFRIDOC-MT: Document-level MT Corpus for African Languages

arxiv url: http://arxiv.org/abs/2501.06374v1
Date: Fri, 10 Jan 2025 22:49:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 21:19:24.9028
Title: AFRIDOC-MT: Document-level MT Corpus for African Languages
Title（参考訳）: AFRIDOC-MT:アフリカ語用文書レベルMTコーパス
Authors: Jesujoba O. Alabi, Israel Abebe Azime, Miaoran Zhang, Cristina España-Bonet, Rachel Bawden, Dawei Zhu, David Ifeoluwa Adelani, Clement Oyeleke Odoje, Idris Akinade, Iffat Maab, Davis David, Shamsuddeen Hassan Muhammad, Neo Putini, David O. Ademuyiwa, Andrew Caines, Dietrich Klakow,
Abstract要約: AFRIDOC-MTは、英語と5つのアフリカ語をカバーする文書レベルのマルチ並列翻訳データセットである。データセットは334の健康と271の情報技術に関するニュースドキュメントで構成されており、全て英語からこれらの言語に翻訳されている。
参考スコア（独自算出の注目度）: 24.871863004002616
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper introduces AFRIDOC-MT, a document-level multi-parallel translation dataset covering English and five African languages: Amharic, Hausa, Swahili, Yor\`ub\'a, and Zulu. The dataset comprises 334 health and 271 information technology news documents, all human-translated from English to these languages. We conduct document-level translation benchmark experiments by evaluating neural machine translation (NMT) models and large language models (LLMs) for translations between English and these languages, at both the sentence and pseudo-document levels. These outputs are realigned to form complete documents for evaluation. Our results indicate that NLLB-200 achieved the best average performance among the standard NMT models, while GPT-4o outperformed general-purpose LLMs. Fine-tuning selected models led to substantial performance gains, but models trained on sentences struggled to generalize effectively to longer documents. Furthermore, our analysis reveals that some LLMs exhibit issues such as under-generation, repetition of words or phrases, and off-target translations, especially for African languages.
Abstract（参考訳）: 本稿では,AFRIDOC-MTについて紹介する。Amharic,Hausa,Swahili,Yor\`ub\'a,Zuluの5言語を対象とした文書レベルのマルチ並列翻訳データセットである。データセットは334の健康と271の情報技術に関するニュースドキュメントで構成されており、すべて英語からこれらの言語に翻訳されている。文と擬文書の両レベルで、英語とこれらの言語間の翻訳のためのニューラルマシン翻訳(NMT)モデルと大規模言語モデル(LLM)を評価することにより、文書レベルの翻訳ベンチマーク実験を行う。これらの出力は、評価のために完全なドキュメントを作成するように再構成される。以上の結果から,NLLB-200は標準NMTモデルの中で最も高い平均性能を示し,GPT-4oは汎用LLMよりも優れていた。微調整された選択されたモデルは大幅な性能向上をもたらしたが、文で訓練されたモデルは、より長い文書に効果的に一般化するのに苦労した。さらに,LLMの中には,低世代化,単語や句の繰り返し,ターゲット外翻訳,特にアフリカ諸言語において問題となるものも見出されている。

関連論文リスト

Retrieval-Augmented Machine Translation with Unstructured Knowledge [74.84236945680503]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文参考訳（メタデータ） (2024-12-05T17:00:32Z)
Fine-Grained and Multi-Dimensional Metrics for Document-Level Machine Translation [15.987448306012167]
大規模言語モデル(LLM)は機械翻訳(MT)を含む様々なNLPタスクに優れている。本研究は,文書レベル翻訳(docMT)における命令調整型LLMの本質的能力について検討する。
論文参考訳（メタデータ） (2024-10-28T11:49:58Z)
Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文参考訳（メタデータ） (2024-01-16T13:30:09Z)
Enhancing Document-level Translation of Large Language Model via Translation Mixed-instructions [24.025242477280983]
機械翻訳のための既存の大きな言語モデル(LLM)は、典型的には文レベルの翻訳命令に基づいて微調整される。この課題は、文レベルのカバレッジの問題から生じ、文書のその後の文は転写されないままである。様々な長さの文レベルと文書レベルの翻訳命令を微調整LLMに結合する手法を提案する。
論文参考訳（メタデータ） (2024-01-16T03:28:26Z)
Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文参考訳（メタデータ） (2024-01-12T09:29:13Z)
Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。 OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文参考訳（メタデータ） (2023-05-04T12:21:52Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。 DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文参考訳（メタデータ） (2021-12-16T08:58:52Z)
Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-19T03:30:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。