論文の概要: PhoMT: A High-Quality and Large-Scale Benchmark Dataset for
Vietnamese-English Machine Translation
- arxiv url: http://arxiv.org/abs/2110.12199v1
- Date: Sat, 23 Oct 2021 11:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 15:44:15.007699
- Title: PhoMT: A High-Quality and Large-Scale Benchmark Dataset for
Vietnamese-English Machine Translation
- Title(参考訳): PhoMT:ベトナム語機械翻訳のための高品質で大規模ベンチマークデータセット
- Authors: Long Doan, Linh The Nguyen, Nguyen Luong Tran, Thai Hoang, Dat Quoc
Nguyen
- Abstract要約: 3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。
これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。
自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
- 参考スコア(独自算出の注目度): 6.950742601378329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a high-quality and large-scale Vietnamese-English parallel
dataset of 3.02M sentence pairs, which is 2.9M pairs larger than the benchmark
Vietnamese-English machine translation corpus IWSLT15. We conduct experiments
comparing strong neural baselines and well-known automatic translation engines
on our dataset and find that in both automatic and human evaluations: the best
performance is obtained by fine-tuning the pre-trained sequence-to-sequence
denoising auto-encoder mBART. To our best knowledge, this is the first
large-scale Vietnamese-English machine translation study. We hope our publicly
available dataset and study can serve as a starting point for future research
and applications on Vietnamese-English machine translation.
- Abstract(参考訳): ベトナム語機械翻訳コーパスIWSLT15よりも2.9万対大きい3200万文対の高品質で大規模なベトナム英語並列データセットを提案する。
我々は, ニューラルネットワークと, 有名な自動翻訳エンジンをデータセット上で比較し, 自動評価と人的評価の両方において, トレーニング済みのシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することで, 最高の性能が得られることを示す。
私たちの知る限りでは、これは最初の大規模なベトナム英語機械翻訳研究である。
我々の公開データセットと研究が、ベトナム語と英語の機械翻訳に関する将来の研究および応用の出発点になることを期待している。
関連論文リスト
- Improving Vietnamese-English Medical Machine Translation [14.172448099399407]
MedEVは、医療領域向けに構築された高品質のベトナム語と英語の並列データセットで、約360Kの文対で構成されている。
我々は、Google Translate、ChatGPT(gpt-3.5-turbo)、最先端のベトナム語-英語ニューラルマシン翻訳モデル、および新しいMedEVデータセット上で事前訓練されたバイリンガル/マルチリンガルシーケンス・ツー・シーケンスモデルの比較実験を行った。
実験結果から, 翻訳方向ごとに「ビナイ翻訳」を微調整することで, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-28T06:07:15Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - MTet: Multi-domain Translation for English and Vietnamese [10.126442202316825]
MTetは英語とベトナム語を翻訳するための最大の並列コーパスである。
英語とベトナム語のための最初の事前訓練されたモデルEnViT5をリリースする。
論文 参考訳(メタデータ) (2022-10-11T16:55:21Z) - A High-Quality and Large-Scale Dataset for English-Vietnamese Speech
Translation [17.35935715147861]
本稿では,508時間音声を用いた英語-ベトナム語音声翻訳のための高品質で大規模なベンチマークデータセットを提案する。
我々の知る限りでは、これは初めて大規模な英語-ベトナム語音声翻訳研究である。
論文 参考訳(メタデータ) (2022-08-08T16:11:26Z) - Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。
参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。
品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文 参考訳(メタデータ) (2022-05-02T15:26:28Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Sentence Extraction-Based Machine Reading Comprehension for Vietnamese [0.2446672595462589]
UIT-ViWikiQAは,ベトナム語における文抽出に基づく機械読解に関する最初のデータセットである。
このデータセットは、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。
我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。
論文 参考訳(メタデータ) (2021-05-19T10:22:27Z) - scb-mt-en-th-2020: A Large English-Thai Parallel Corpus [3.3072037841206354]
我々は100万以上のセグメント対を持つ英タイ機械翻訳データセットを構築した。
このデータセットに基づいて機械翻訳モデルを訓練する。
データセット、事前トレーニングされたモデル、私たちの作業を再現するソースコードは、パブリックに利用できます。
論文 参考訳(メタデータ) (2020-07-07T15:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。