論文の概要: Improving Vietnamese-English Medical Machine Translation
- arxiv url: http://arxiv.org/abs/2403.19161v1
- Date: Thu, 28 Mar 2024 06:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:12:54.320506
- Title: Improving Vietnamese-English Medical Machine Translation
- Title(参考訳): ベトナム語・英語医療機械翻訳の改善
- Authors: Nhu Vo, Dat Quoc Nguyen, Dung D. Le, Massimo Piccardi, Wray Buntine,
- Abstract要約: MedEVは、医療領域向けに構築された高品質のベトナム語と英語の並列データセットで、約360Kの文対で構成されている。
我々は、Google Translate、ChatGPT(gpt-3.5-turbo)、最先端のベトナム語-英語ニューラルマシン翻訳モデル、および新しいMedEVデータセット上で事前訓練されたバイリンガル/マルチリンガルシーケンス・ツー・シーケンスモデルの比較実験を行った。
実験結果から, 翻訳方向ごとに「ビナイ翻訳」を微調整することで, 最高の性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 14.172448099399407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation for Vietnamese-English in the medical domain is still an under-explored research area. In this paper, we introduce MedEV -- a high-quality Vietnamese-English parallel dataset constructed specifically for the medical domain, comprising approximately 360K sentence pairs. We conduct extensive experiments comparing Google Translate, ChatGPT (gpt-3.5-turbo), state-of-the-art Vietnamese-English neural machine translation models and pre-trained bilingual/multilingual sequence-to-sequence models on our new MedEV dataset. Experimental results show that the best performance is achieved by fine-tuning "vinai-translate" for each translation direction. We publicly release our dataset to promote further research.
- Abstract(参考訳): 医学領域におけるベトナム語英語の機械翻訳は、まだ探索されていない研究領域である。
本稿では,約360Kの文対からなる医用領域に特化して構築された,高品質なベトナム語並列データセットであるMedEVを紹介する。
我々は、Google Translate、ChatGPT(gpt-3.5-turbo)、最先端のベトナム語-英語ニューラルマシン翻訳モデル、および新しいMedEVデータセット上で事前訓練されたバイリンガル/マルチリンガルシーケンス・ツー・シーケンスモデルの比較実験を行った。
実験結果から, 翻訳方向ごとに「ビナイ翻訳」を微調整することで, 最高の性能が得られることがわかった。
さらなる研究を促進するために、データセットを公開しています。
関連論文リスト
- Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - An Effective Method using Phrase Mechanism in Neural Machine Translation [3.8979646385036166]
ベトナム語と中国語の並列コーパスのためのニューラル機械翻訳(NMT)システムを構築する際に,フレーズ機構であるPhrase Transformerを用いて,強力なベースラインモデルトランスフォーマを改善する方法を提案する。
VLSP 2022コンペティションのMTデータセットに関する我々の実験は、ベトナム語から中国語へのBLEUスコアが35.3、中国語からベトナム語へのデータのBLEUスコアが33.2であった。
論文 参考訳(メタデータ) (2023-08-21T05:46:40Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Enriching Biomedical Knowledge for Low-resource Language Through
Translation [1.6347851388527643]
我々は、英語・ベトナム語における最先端翻訳モデルを用いて、事前訓練されたデータとバイオメディカル領域における教師付きデータの両方を翻訳し、生成する。
このような大規模な翻訳のおかげで、高品質な公開コーパスから2000万の抽象化に基づいてトレーニングされた、事前訓練されたデコーダ変換モデルであるViPubmedT5を導入する。
論文 参考訳(メタデータ) (2022-10-11T16:35:10Z) - PhoMT: A High-Quality and Large-Scale Benchmark Dataset for
Vietnamese-English Machine Translation [6.950742601378329]
3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。
これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。
自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
論文 参考訳(メタデータ) (2021-10-23T11:42:01Z) - COVID-19 Named Entity Recognition for Vietnamese [6.17059264011429]
ベトナムで最初の手作業によるcovid-19ドメイン固有データセットについて紹介する。
私たちのデータセットは、新たに定義されたエンティティタイプを持つ名前付きエンティティ認識タスクにアノテートされます。
当社のデータセットには、既存のベトナムのNERデータセットと比較して最大数のエンティティが含まれています。
論文 参考訳(メタデータ) (2021-04-08T16:35:34Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。