論文の概要: gaHealth: An English-Irish Bilingual Corpus of Health Data
- arxiv url: http://arxiv.org/abs/2403.03575v1
- Date: Wed, 6 Mar 2024 09:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:35:08.469353
- Title: gaHealth: An English-Irish Bilingual Corpus of Health Data
- Title(参考訳): GaHealth:イギリスとアイルランドのバイリンガル・コーパス・オブ・ヘルス・データ
- Authors: S\'eamus Lankford, Haithem Afli, \'Orla N\'i Loinsigh, Andy Way
- Abstract要約: gaHealthはアイルランド語の健康データの最初のバイリンガルコーパスである。
GaHealth corpus を用いて開発されたモデルは、トップパフォーマンスモデルと比較して最大22.2ポイント (40%) のBLEUスコアの改善を示した。
- 参考スコア(独自算出の注目度): 2.3568264786920787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Translation is a mature technology for many high-resource language
pairs. However in the context of low-resource languages, there is a paucity of
parallel data datasets available for developing translation models.
Furthermore, the development of datasets for low-resource languages often
focuses on simply creating the largest possible dataset for generic
translation. The benefits and development of smaller in-domain datasets can
easily be overlooked. To assess the merits of using in-domain data, a dataset
for the specific domain of health was developed for the low-resource English to
Irish language pair. Our study outlines the process used in developing the
corpus and empirically demonstrates the benefits of using an in-domain dataset
for the health domain. In the context of translating health-related data,
models developed using the gaHealth corpus demonstrated a maximum BLEU score
improvement of 22.2 points (40%) when compared with top performing models from
the LoResMT2021 Shared Task. Furthermore, we define linguistic guidelines for
developing gaHealth, the first bilingual corpus of health data for the Irish
language, which we hope will be of use to other creators of low-resource data
sets. gaHealth is now freely available online and is ready to be explored for
further research.
- Abstract(参考訳): 機械翻訳は多くの高リソース言語ペアの成熟した技術である。
しかし、低リソース言語では、翻訳モデルを開発するために利用可能な並列データデータセットが多用されている。
さらに、低リソース言語向けのデータセットの開発は、汎用翻訳のための最大のデータセットの作成にしばしば焦点を当てている。
より小さなドメイン内のデータセットの利点と開発は容易に見過ごせる。
ドメイン内のデータを使用するメリットを評価するため、低リソースの英語とアイルランド語のペアに対して、特定の健康領域のデータセットを開発した。
本研究は、コーパスの開発に使用するプロセスの概要と、健康領域にドメイン内データセットを使用することによるメリットを実証的に示す。
健康関連データの翻訳において、gaHealthコーパスを用いて開発されたモデルでは、LoResMT2021共有タスクの最高パフォーマンスモデルと比較して、BLEUスコアは22.2ポイント(40%)向上した。
さらに、アイルランド語における最初のバイリンガルな健康データコーパスであるgaHealthの開発のための言語ガイドラインも定義しています。
gaHealthは現在オンラインで無料で提供されており、さらなる研究のための準備が整っている。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文 参考訳(メタデータ) (2023-09-19T17:17:28Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - Localising In-Domain Adaptation of Transformer-Based Biomedical Language
Models [0.987336898133886]
我々は、英語以外の言語で生物医学的言語モデルを導出するための2つのアプローチを提案する。
1つは、英語リソースのニューラルネットワーク翻訳に基づくもので、品質よりも量を好む。
もう一つは、イタリア語で書かれた高品位で細いスコープのコーパスに基づいており、量よりも質を優先している。
論文 参考訳(メタデータ) (2022-12-20T16:59:56Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。