論文の概要: MTet: Multi-domain Translation for English and Vietnamese
- arxiv url: http://arxiv.org/abs/2210.05610v1
- Date: Tue, 11 Oct 2022 16:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:01:20.578812
- Title: MTet: Multi-domain Translation for English and Vietnamese
- Title(参考訳): MTet:英語とベトナム語のための多言語翻訳
- Authors: Chinh Ngo, Trieu H. Trinh, Long Phan, Hieu Tran, Tai Dang, Hieu
Nguyen, Minh Nguyen and Minh-Thang Luong
- Abstract要約: MTetは英語とベトナム語を翻訳するための最大の並列コーパスである。
英語とベトナム語のための最初の事前訓練されたモデルEnViT5をリリースする。
- 参考スコア(独自算出の注目度): 10.126442202316825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MTet, the largest publicly available parallel corpus for
English-Vietnamese translation. MTet consists of 4.2M high-quality training
sentence pairs and a multi-domain test set refined by the Vietnamese research
community. Combining with previous works on English-Vietnamese translation, we
grow the existing parallel dataset to 6.2M sentence pairs. We also release the
first pretrained model EnViT5 for English and Vietnamese languages. Combining
both resources, our model significantly outperforms previous state-of-the-art
results by up to 2 points in translation BLEU score, while being 1.6 times
smaller.
- Abstract(参考訳): MTetは,英語-ベトナム語翻訳のための最大公用並列コーパスである。
MTetは4.2Mの高品質な訓練文対とベトナムの研究コミュニティによって改良された多ドメインテストからなる。
英ベトナム語翻訳の以前の研究と組み合わせて、既存の並列データセットを620万の文対に拡大する。
また、英語とベトナム語向けの最初の事前訓練されたモデル envit5 もリリースします。
両資源を組み合わせたモデルでは,従来より1.6倍の精度でBLEUスコアを最大2ポイント上回る結果が得られた。
関連論文リスト
- Improving Vietnamese-English Medical Machine Translation [14.172448099399407]
MedEVは、医療領域向けに構築された高品質のベトナム語と英語の並列データセットで、約360Kの文対で構成されている。
我々は、Google Translate、ChatGPT(gpt-3.5-turbo)、最先端のベトナム語-英語ニューラルマシン翻訳モデル、および新しいMedEVデータセット上で事前訓練されたバイリンガル/マルチリンガルシーケンス・ツー・シーケンスモデルの比較実験を行った。
実験結果から, 翻訳方向ごとに「ビナイ翻訳」を微調整することで, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-28T06:07:15Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Enriching Biomedical Knowledge for Low-resource Language Through
Translation [1.6347851388527643]
我々は、英語・ベトナム語における最先端翻訳モデルを用いて、事前訓練されたデータとバイオメディカル領域における教師付きデータの両方を翻訳し、生成する。
このような大規模な翻訳のおかげで、高品質な公開コーパスから2000万の抽象化に基づいてトレーニングされた、事前訓練されたデコーダ変換モデルであるViPubmedT5を導入する。
論文 参考訳(メタデータ) (2022-10-11T16:35:10Z) - PhoMT: A High-Quality and Large-Scale Benchmark Dataset for
Vietnamese-English Machine Translation [6.950742601378329]
3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。
これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。
自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
論文 参考訳(メタデータ) (2021-10-23T11:42:01Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。
ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。
PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-10-05T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。