論文の概要: NEJM-enzh: A Parallel Corpus for English-Chinese Translation in the
Biomedical Domain
- arxiv url: http://arxiv.org/abs/2005.09133v1
- Date: Mon, 18 May 2020 23:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:07:43.607378
- Title: NEJM-enzh: A Parallel Corpus for English-Chinese Translation in the
Biomedical Domain
- Title(参考訳): NEJM-enzh:生物医学領域における英語・中国語翻訳のための並列コーパス
- Authors: Boxiang Liu and Liang Huang
- Abstract要約: ニューイングランド・ジャーナル・オブ・メディカル(NEJM)から英語と中国語の並行コーパスを取得・処理するためのパイプラインを開発する。
ドメイン外データのトレーニングと4000のNEJM文ペアによる微調整により, en$to$zh (zh$to$en) 方向のBLEUを25.3 (13.4) 向上させることを示した。
- 参考スコア(独自算出の注目度): 6.71154976025969
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine translation requires large amounts of parallel text. While such
datasets are abundant in domains such as newswire, they are less accessible in
the biomedical domain. Chinese and English are two of the most widely spoken
languages, yet to our knowledge a parallel corpus in the biomedical domain does
not exist for this language pair. In this study, we develop an effective
pipeline to acquire and process an English-Chinese parallel corpus, consisting
of about 100,000 sentence pairs and 3,000,000 tokens on each side, from the New
England Journal of Medicine (NEJM). We show that training on out-of-domain data
and fine-tuning with as few as 4,000 NEJM sentence pairs improve translation
quality by 25.3 (13.4) BLEU for en$\to$zh (zh$\to$en) directions. Translation
quality continues to improve at a slower pace on larger in-domain datasets,
with an increase of 33.0 (24.3) BLEU for en$\to$zh (zh$\to$en) directions on
the full dataset.
- Abstract(参考訳): 機械翻訳には大量のパラレルテキストが必要である。
このようなデータセットはnewswireのようなドメインで豊富であるが、バイオメディカルドメインではアクセスできない。
中国語と英語が最も広く話されている言語は2つあるが、我々の知る限り、この言語対には生物医学領域の平行コーパスは存在しない。
本研究では、new england journal of medicine (nejm) から約10万文対と3,000,000トークンからなる、英語と中国語の並列コーパスを取得し、処理する効果的なパイプラインを開発した。
ドメイン外データのトレーニングと4000のNEJM文ペアによる微調整により,en$\to$zh (zh$\to$en)方向のBLEUの翻訳品質が25.3 (13.4)向上することを示す。
翻訳品質は、より大きなドメイン内データセットでは遅くなり続け、全データセットで33.0 (24.3) bleu for en$\to$zh (zh$\to$en)の方向が増加する。
関連論文リスト
- Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer
in Low-Resource Dialog Generation [21.973937517854935]
複数の言語で高品質なチャットボットを開発するためには、言語間移動が重要である。
本研究は,機械翻訳(MT)の活用に有用かどうかを考察する。
英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-05-21T15:07:04Z) - Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation? [52.27798071809941]
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。
マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
論文 参考訳(メタデータ) (2022-10-20T23:13:54Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Sentence Alignment with Parallel Documents Helps Biomedical Machine
Translation [0.5430741734728369]
本研究は、新しい教師なし文アライメント手法を示し、生体医学的ニューラルネットワーク翻訳(NMT)システムの訓練における特徴を探求する。
二言語間単語の類似性を評価するために,二言語間単語埋め込みの構築には単純かつ効果的な手法を用いる。
提案手法は1対1および多対多のケースで高い精度を達成した。
論文 参考訳(メタデータ) (2021-04-17T16:09:30Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。