論文の概要: NEJM-enzh: A Parallel Corpus for English-Chinese Translation in the
Biomedical Domain
- arxiv url: http://arxiv.org/abs/2005.09133v1
- Date: Mon, 18 May 2020 23:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:07:43.607378
- Title: NEJM-enzh: A Parallel Corpus for English-Chinese Translation in the
Biomedical Domain
- Title(参考訳): NEJM-enzh:生物医学領域における英語・中国語翻訳のための並列コーパス
- Authors: Boxiang Liu and Liang Huang
- Abstract要約: ニューイングランド・ジャーナル・オブ・メディカル(NEJM)から英語と中国語の並行コーパスを取得・処理するためのパイプラインを開発する。
ドメイン外データのトレーニングと4000のNEJM文ペアによる微調整により, en$to$zh (zh$to$en) 方向のBLEUを25.3 (13.4) 向上させることを示した。
- 参考スコア(独自算出の注目度): 6.71154976025969
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine translation requires large amounts of parallel text. While such
datasets are abundant in domains such as newswire, they are less accessible in
the biomedical domain. Chinese and English are two of the most widely spoken
languages, yet to our knowledge a parallel corpus in the biomedical domain does
not exist for this language pair. In this study, we develop an effective
pipeline to acquire and process an English-Chinese parallel corpus, consisting
of about 100,000 sentence pairs and 3,000,000 tokens on each side, from the New
England Journal of Medicine (NEJM). We show that training on out-of-domain data
and fine-tuning with as few as 4,000 NEJM sentence pairs improve translation
quality by 25.3 (13.4) BLEU for en$\to$zh (zh$\to$en) directions. Translation
quality continues to improve at a slower pace on larger in-domain datasets,
with an increase of 33.0 (24.3) BLEU for en$\to$zh (zh$\to$en) directions on
the full dataset.
- Abstract(参考訳): 機械翻訳には大量のパラレルテキストが必要である。
このようなデータセットはnewswireのようなドメインで豊富であるが、バイオメディカルドメインではアクセスできない。
中国語と英語が最も広く話されている言語は2つあるが、我々の知る限り、この言語対には生物医学領域の平行コーパスは存在しない。
本研究では、new england journal of medicine (nejm) から約10万文対と3,000,000トークンからなる、英語と中国語の並列コーパスを取得し、処理する効果的なパイプラインを開発した。
ドメイン外データのトレーニングと4000のNEJM文ペアによる微調整により,en$\to$zh (zh$\to$en)方向のBLEUの翻訳品質が25.3 (13.4)向上することを示す。
翻訳品質は、より大きなドメイン内データセットでは遅くなり続け、全データセットで33.0 (24.3) bleu for en$\to$zh (zh$\to$en)の方向が増加する。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Improving Vietnamese-English Medical Machine Translation [14.172448099399407]
MedEVは、医療領域向けに構築された高品質のベトナム語と英語の並列データセットで、約360Kの文対で構成されている。
我々は、Google Translate、ChatGPT(gpt-3.5-turbo)、最先端のベトナム語-英語ニューラルマシン翻訳モデル、および新しいMedEVデータセット上で事前訓練されたバイリンガル/マルチリンガルシーケンス・ツー・シーケンスモデルの比較実験を行った。
実験結果から, 翻訳方向ごとに「ビナイ翻訳」を微調整することで, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-28T06:07:15Z) - Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation? [52.27798071809941]
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。
マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
論文 参考訳(メタデータ) (2022-10-20T23:13:54Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Sentence Alignment with Parallel Documents Helps Biomedical Machine
Translation [0.5430741734728369]
本研究は、新しい教師なし文アライメント手法を示し、生体医学的ニューラルネットワーク翻訳(NMT)システムの訓練における特徴を探求する。
二言語間単語の類似性を評価するために,二言語間単語埋め込みの構築には単純かつ効果的な手法を用いる。
提案手法は1対1および多対多のケースで高い精度を達成した。
論文 参考訳(メタデータ) (2021-04-17T16:09:30Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。