論文の概要: OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2508.16048v1
- Date: Fri, 22 Aug 2025 02:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.229552
- Title: OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages
- Title(参考訳): OpenWHO: 低リソース言語での健康翻訳のためのドキュメントレベル並列コーパス
- Authors: Raphaël Merx, Hanna Suominen, Trevor Cohn, Ekaterina Vylomova,
- Abstract要約: 我々は,世界保健機関のeラーニングプラットフォームから,2,978の文書と26,824の文からなる文書レベルの並列コーパスであるOpenWHOを紹介した。
従来の機械翻訳モデルに対して,現代大言語モデル (LLM) を評価する。
- 参考スコア(独自算出の注目度): 27.956140150633832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine translation (MT), health is a high-stakes domain characterised by widespread deployment and domain-specific vocabulary. However, there is a lack of MT evaluation datasets for low-resource languages in this domain. To address this gap, we introduce OpenWHO, a document-level parallel corpus of 2,978 documents and 26,824 sentences from the World Health Organization's e-learning platform. Sourced from expert-authored, professionally translated materials shielded from web-crawling, OpenWHO spans a diverse range of over 20 languages, of which nine are low-resource. Leveraging this new resource, we evaluate modern large language models (LLMs) against traditional MT models. Our findings reveal that LLMs consistently outperform traditional MT models, with Gemini 2.5 Flash achieving a +4.79 ChrF point improvement over NLLB-54B on our low-resource test set. Further, we investigate how LLM context utilisation affects accuracy, finding that the benefits of document-level translation are most pronounced in specialised domains like health. We release the OpenWHO corpus to encourage further research into low-resource MT in the health domain.
- Abstract(参考訳): 機械翻訳(MT)において、健康(Health)は広範囲な展開とドメイン固有の語彙によって特徴づけられる高い領域である。
しかし、この領域では低リソース言語に対するMT評価データセットが不足している。
このギャップに対処するため、世界保健機関のeラーニングプラットフォームから2,978の文書と26,824の文からなるドキュメントレベルの並列コーパスであるOpenWHOを紹介します。
OpenWHOは、Webクローリングから保護された専門的に翻訳された資料から生まれたもので、20以上の多種多様な言語にまたがっており、そのうち9つは低リソースである。
新たなリソースを活用することで,従来のMTモデルに対して,最新の大規模言語モデル(LLM)を評価する。
その結果,LLMは従来のMTモデルより一貫して優れており,Gemini 2.5 Flash は低リソーステストセット上で NLLB-54B に対して +4.79 ChrF 点改善を実現していることがわかった。
さらに, LLMの文脈利用が精度に与える影響について検討し, 健康などの専門分野において, 文書レベルの翻訳の利点が最も顕著であることを示した。
我々は、医療分野における低リソースMTのさらなる研究を促進するために、OpenWHOコーパスをリリースする。
関連論文リスト
- TULUN: Transparent and Adaptable Low-resource Machine Translation [30.705550819100424]
Tulunは、用語認識翻訳のための汎用的なソリューションである。
私たちのオープンソースのWebベースプラットフォームは、ユーザが簡単に用語リソースを作成し、編集し、活用することができます。
論文 参考訳(メタデータ) (2025-05-24T12:58:58Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Domain-Specific Translation with Open-Source Large Language Models: Resource-Oriented Analysis [0.0]
オープンソースの自己回帰型デコーダ専用大言語モデル(LLM)のドメイン固有翻訳性能とタスク指向機械翻訳(MT)モデルとの比較を行った。
実験では,医療領域に焦点をあて,資源利用率の異なる4つの言語方向をカバーした。
論文 参考訳(メタデータ) (2024-12-08T08:54:13Z) - Retrieval-Augmented Machine Translation with Unstructured Knowledge [74.84236945680503]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する
機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。
本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文 参考訳(メタデータ) (2024-12-05T17:00:32Z) - Low-Resource Machine Translation through Retrieval-Augmented LLM Prompting: A Study on the Mambai Language [1.1702440973773898]
本研究では,Timor-Lesteで話される低音源のオーストロネシア語であるMambaiへの英語翻訳における大規模言語モデルの利用について検討した。
提案手法は, 並列文と辞書エントリの戦略的な選択と, プロンプトのための手法である。
辞書をインプロンプトに含め,-IDFで検索した文とセマンティック埋め込みを混合することにより,翻訳品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-07T05:04:38Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。