論文の概要: CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2405.08172v1
- Date: Mon, 13 May 2024 20:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 15:37:23.387980
- Title: CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation
- Title(参考訳): CANTONMT: 英語翻訳におけるバックトランスレーションとモデルスイッチ機構の検討
- Authors: Kung Yin Hong, Lifeng Han, Riza Batista-Navarro, Goran Nenadic,
- Abstract要約: 本稿では、カントン語から英語への機械翻訳モデルの開発と評価について述べる。
オンラインで利用可能なさまざまなコーパスと事前処理とクリーニングを組み合わせることで、新しい並列コーパスが作成されている。
合成並列コーパス生成を支援するために、Webスクレイピングを通じてモノリンガルなカントンデータセットが作成されている。
- 参考スコア(独自算出の注目度): 9.244878233604819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper investigates the development and evaluation of machine translation models from Cantonese to English, where we propose a novel approach to tackle low-resource language translations. The main objectives of the study are to develop a model that can effectively translate Cantonese to English and evaluate it against state-of-the-art commercial models. To achieve this, a new parallel corpus has been created by combining different available corpora online with preprocessing and cleaning. In addition, a monolingual Cantonese dataset has been created through web scraping to aid the synthetic parallel corpus generation. Following the data collection process, several approaches, including fine-tuning models, back-translation, and model switch, have been used. The translation quality of models has been evaluated with multiple quality metrics, including lexicon-based metrics (SacreBLEU and hLEPOR) and embedding-space metrics (COMET and BERTscore). Based on the automatic metrics, the best model is selected and compared against the 2 best commercial translators using the human evaluation framework HOPES. The best model proposed in this investigation (NLLB-mBART) with model switch mechanisms has reached comparable and even better automatic evaluation scores against State-of-the-art commercial models (Bing and Baidu Translators), with a SacreBLEU score of 16.8 on our test set. Furthermore, an open-source web application has been developed to allow users to translate between Cantonese and English, with the different trained models available for effective comparisons between models from this investigation and users. CANTONMT is available at https://github.com/kenrickkung/CantoneseTranslation
- Abstract(参考訳): 本稿では、カントン語から英語への機械翻訳モデルの開発と評価について検討し、低リソース言語翻訳への新たなアプローチを提案する。
この研究の主な目的は、カントン語を効果的に英語に翻訳し、最先端の商業モデルに対して評価できるモデルを開発することである。
これを実現するために、オンラインで利用可能な異なるコーパスと事前処理とクリーニングを組み合わせることで、新しい並列コーパスが作成されている。
さらに、合成並列コーパス生成を支援するために、Webスクレイピングを通じてモノリンガルなカントンデータセットが作成されている。
データ収集プロセスに続いて、微調整モデル、バックトランスレーション、モデルスイッチなど、いくつかのアプローチが使用されている。
モデルの翻訳品質は、レキシコンベースのメトリクス(SacreBLEUとhLEPOR)や埋め込み空間メトリクス(COMETとBERTscore)など、複数の品質メトリクスで評価されている。
自動測定値に基づいて、ヒト評価フレームワークHOPESを用いて、最適なモデルを選択し、比較する。
モデルスイッチ機構を備えたNLLB-mBART (NLLB-mBART) で提案される最良のモデルでは,テストセットのSacreBLEUスコアが16.8である最先端の商用モデル (Bing と Baidu Translators) に対して,同等かつさらに優れた自動評価スコアに達している。
さらに、ユーザがカントン語と英語を翻訳できるように、オープンソースのWebアプリケーションも開発されている。
CANTONMTはhttps://github.com/kenrickkung/Cantonese Translationで利用可能である。
関連論文リスト
- Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Segment-Based Interactive Machine Translation for Pre-trained Models [2.0871483263418806]
対話型機械翻訳環境におけるLLM(Pre-trained large language model)の利用について検討する。
システムは、ユーザが各イテレーションで提供するフィードバックを使って、インタラクティブに完璧な翻訳を生成する。
我々は,mBART,mT5,SoTA(State-of-the-art)機械翻訳モデルの性能を,ユーザ作業に関するベンチマークデータセット上で比較した。
論文 参考訳(メタデータ) (2024-07-09T16:04:21Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Continual Knowledge Distillation for Neural Machine Translation [74.03622486218597]
並列コーパスは、データ著作権、データプライバシ、競争上の差別化の理由から、一般にはアクセスできない。
本稿では,既存の翻訳モデルを利用して,関心の1つのモデルを改善するための連続的知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-12-18T14:41:13Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。