論文の概要: On Creating an English-Thai Code-switched Machine Translation in Medical Domain
- arxiv url: http://arxiv.org/abs/2410.16221v1
- Date: Mon, 21 Oct 2024 17:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:11.474832
- Title: On Creating an English-Thai Code-switched Machine Translation in Medical Domain
- Title(参考訳): 医科領域における英語タイ語コード変更機械翻訳の作成について
- Authors: Parinthapat Pengpun, Krittamate Tiankanon, Amrest Chinkamol, Jiramet Kinchagawat, Pitchaya Chairuengjitjaras, Pasit Supholkhan, Pubordee Aussavavirojekul, Chiraphat Boonnag, Kanyakorn Veerakanjana, Hirunkul Phimsiri, Boonthicha Sae-jia, Nattawach Sataudom, Piyalitt Ittichaiwong, Peerat Limkonchotiwat,
- Abstract要約: 医療領域における機械翻訳(MT)は、医療の質の向上と医療知識の普及に重要な役割を果たしている。
英語とタイ語によるMT技術の進歩にもかかわらず、一般的なMTアプローチは、医学用語を正確に翻訳できないため、医療分野では不十分であることが多い。
我々の研究は翻訳精度の向上だけでなく、英語の医学用語の維持も優先している。
- 参考スコア(独自算出の注目度): 2.0737832185611524
- License:
- Abstract: Machine translation (MT) in the medical domain plays a pivotal role in enhancing healthcare quality and disseminating medical knowledge. Despite advancements in English-Thai MT technology, common MT approaches often underperform in the medical field due to their inability to precisely translate medical terminologies. Our research prioritizes not merely improving translation accuracy but also maintaining medical terminology in English within the translated text through code-switched (CS) translation. We developed a method to produce CS medical translation data, fine-tuned a CS translation model with this data, and evaluated its performance against strong baselines, such as Google Neural Machine Translation (NMT) and GPT-3.5/GPT-4. Our model demonstrated competitive performance in automatic metrics and was highly favored in human preference evaluations. Our evaluation result also shows that medical professionals significantly prefer CS translations that maintain critical English terms accurately, even if it slightly compromises fluency. Our code and test set are publicly available https://github.com/preceptorai-org/NLLB_CS_EM_NLP2024.
- Abstract(参考訳): 医療領域における機械翻訳(MT)は、医療の質の向上と医療知識の普及に重要な役割を果たしている。
英語とタイ語によるMT技術の進歩にもかかわらず、一般的なMTアプローチは、医学用語を正確に翻訳できないため、医療分野では不十分であることが多い。
本研究は、翻訳精度の向上だけでなく、コードスイッチト(CS)翻訳による翻訳文中の医学用語の維持も優先している。
このデータを用いてCS翻訳モデルを微調整し,その性能をGoogle Neural Machine Translation (NMT) や GPT-3.5/GPT-4 といった強力なベースラインに対して評価した。
提案モデルは,自動測定において競争性能を示し,人間の嗜好評価に非常に好意的であった。
また, 医療専門家は, 流布度をわずかに損なう場合でも, 重要な英語用語を正確に維持するCS翻訳を有意に好んでいる。
私たちのコードとテストセットはhttps://github.com/preceptorai-org/NLLB_CS_EM_NLP2024で公開されています。
関連論文リスト
- Searching for Best Practices in Medical Transcription with Large Language Model [1.0855602842179624]
本稿では,Large Language Model (LLM) を用いて,高精度な医療書面を生成する手法を提案する。
提案手法は,単語誤り率(WER)を低くし,重要な医療用語の正確な認識を確保するために,高度な言語モデリング技術を統合する。
論文 参考訳(メタデータ) (2024-10-04T03:41:16Z) - Google Translate Error Analysis for Mental Healthcare Information:
Evaluating Accuracy, Comprehensibility, and Implications for Multilingual
Healthcare Communication [8.178490288773013]
本研究は, 英語からペルシア語, アラビア語, トルコ語, ルーマニア語, スペイン語への翻訳におけるGoogle Translateの利用について検討した。
対象言語の母語話者はGT翻訳を手動で評価し、医学用語の正確性、理解性、重要な構文・意味的誤りに焦点を当てた。
GT出力分析は、特にアラビア語、ルーマニア語、ペルシア語の医学用語を正確に翻訳する際の課題を明らかにした。
論文 参考訳(メタデータ) (2024-02-06T14:16:32Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - A Semi-supervised Approach for a Better Translation of Sentiment in
Dialectical Arabic UGT [2.6763498831034034]
NMTシステムのトレーニングにモノリンガルデータと並列データの両方を利用する半教師付きアプローチを導入する。
提案システムは,アラビア語の方言UGTのオンライン翻訳で検出された感情誤りの訂正に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-21T11:55:55Z) - On the Evaluation of Machine Translation for Terminology Consistency [31.67296249688388]
本稿では,MT出力の整合性を測定するための指標を提案する。
我々は5言語以上の新型コロナウイルス領域の研究を行い、用語を対象とする人間の評価も行います。
論文 参考訳(メタデータ) (2021-06-22T15:59:32Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。