論文の概要: Domain-Specific Machine Translation to Translate Medicine Brochures in English to Sorani Kurdish
- arxiv url: http://arxiv.org/abs/2501.13609v1
- Date: Thu, 23 Jan 2025 12:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:29.358586
- Title: Domain-Specific Machine Translation to Translate Medicine Brochures in English to Sorani Kurdish
- Title(参考訳): 英語でSorani Kurdishに翻訳するドメイン特化機械翻訳
- Authors: Mariam Shamal, Hossein Hassani,
- Abstract要約: 我々は、英語のパンフレットをSorani Kurdishに翻訳する特殊な機械翻訳(MT)モデルを開発した。
イラク・クルディスタン地方(KRI)の製薬会社2社から調達した319個のパンフレットから,22,940個の一致した文対の並列コーパスを用いた。
クルド語話者の薬剤師、医師、医療使用者による人間による評価では、プロの50%が翻訳が一貫していることが判明し、83.3%が正確であると評価した。
- 参考スコア(独自算出の注目度): 1.174020933567308
- License:
- Abstract: Access to Kurdish medicine brochures is limited, depriving Kurdish-speaking communities of critical health information. To address this problem, we developed a specialized Machine Translation (MT) model to translate English medicine brochures into Sorani Kurdish using a parallel corpus of 22,940 aligned sentence pairs from 319 brochures, sourced from two pharmaceutical companies in the Kurdistan Region of Iraq (KRI). We trained a Statistical Machine Translation (SMT) model using the Moses toolkit, conducting seven experiments that resulted in BLEU scores ranging from 22.65 to 48.93. We translated three new brochures to improve the evaluation process and encountered unknown words. We addressed unknown words through post-processing with a medical dictionary, resulting in BLEU scores of 56.87, 31.05, and 40.01. Human evaluation by native Kurdish-speaking pharmacists, physicians, and medicine users showed that 50% of professionals found the translations consistent, while 83.3% rated them accurate. Among users, 66.7% considered the translations clear and felt confident using the medications.
- Abstract(参考訳): クルド語医学のパンフレットへのアクセスは制限されており、クルド語を話すコミュニティから重要な健康情報を取り除いている。
この問題を解決するために,イラク・クルディスタン州の2つの製薬会社(KRI)から得られた319のパンフレットから22,940の連接文対の並列コーパスを用いて,英語のパンフレットをソルニクルド語に翻訳する特殊な機械翻訳(MT)モデルを開発した。
我々はMosesツールキットを用いて統計機械翻訳(SMT)モデルを訓練し、22.65から48.93までのBLEUスコアを導出した7つの実験を行った。
我々は,評価プロセスを改善するために3つの新しいパンフレットを翻訳し,未知の単語に遭遇した。
医療用辞書を用いた後処理により未知語に対処し,56.87点,31.05点,40.01点のBLEUスコアを得た。
クルド語話者の薬剤師、医師、医療使用者による人間による評価では、プロの50%が翻訳が一貫していることが判明し、83.3%が正確であると評価した。
利用者のうち66.7%は翻訳が明確であり、医薬品の使用に自信を感じていた。
関連論文リスト
- On Creating an English-Thai Code-switched Machine Translation in Medical Domain [2.0737832185611524]
医療領域における機械翻訳(MT)は、医療の質の向上と医療知識の普及に重要な役割を果たしている。
英語とタイ語によるMT技術の進歩にもかかわらず、一般的なMTアプローチは、医学用語を正確に翻訳できないため、医療分野では不十分であることが多い。
我々の研究は翻訳精度の向上だけでなく、英語の医学用語の維持も優先している。
論文 参考訳(メタデータ) (2024-10-21T17:25:32Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding [53.84948040596055]
修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
論文 参考訳(メタデータ) (2023-09-13T17:15:27Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Enriching Biomedical Knowledge for Low-resource Language Through
Translation [1.6347851388527643]
我々は、英語・ベトナム語における最先端翻訳モデルを用いて、事前訓練されたデータとバイオメディカル領域における教師付きデータの両方を翻訳し、生成する。
このような大規模な翻訳のおかげで、高品質な公開コーパスから2000万の抽象化に基づいてトレーニングされた、事前訓練されたデコーダ変換モデルであるViPubmedT5を導入する。
論文 参考訳(メタデータ) (2022-10-11T16:35:10Z) - PharmMT: A Neural Machine Translation Approach to Simplify Prescription
Directions [5.931206730514769]
本稿では,機械翻訳に基づくアプローチであるPharmMTを提案する。
大規模な郵便注文薬局から得られた530K以上の処方薬からなるデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-04-08T04:03:56Z) - Central Kurdish machine translation: First large scale parallel corpus
and experiments [2.099922236065961]
229,222対の手作業による翻訳を含む、中央クルド語英語のAwtaの最初の大規模並列コーパスを提示する。
ベストパフォーマンスシステムは,それぞれ,Ku$rightarrow$ENとEn$rightarrow$KuのBLEUスコアで22.72と16.81を達成する。
論文 参考訳(メタデータ) (2021-06-17T08:41:53Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。