論文の概要: CantonMT: Cantonese to English NMT Platform with Fine-Tuned Models Using Synthetic Back-Translation Data
- arxiv url: http://arxiv.org/abs/2403.11346v2
- Date: Tue, 4 Jun 2024 13:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 12:19:03.524766
- Title: CantonMT: Cantonese to English NMT Platform with Fine-Tuned Models Using Synthetic Back-Translation Data
- Title(参考訳): CantonMT: 合成バックトランスレーションデータを用いた微調整モデルによる英語NMTプラットフォーム
- Authors: Kung Yin Hong, Lifeng Han, Riza Batista-Navarro, Goran Nenadic,
- Abstract要約: この研究は、標準データ拡張手法を、新しい言語翻訳の方向であるCantonese-to- Englishにバック翻訳することで展開する。
実データ量と合成データを用いて微調整したモデルを提案する。
我々は、このtextsc CantonMT研究プロジェクトに含まれるモデルのユーザフレンドリなインターフェースを作成し、カントン語から英語へのMT研究を促進するために利用できるようにする。
- 参考スコア(独自算出の注目度): 9.244878233604819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural Machine Translation (NMT) for low-resource languages is still a challenging task in front of NLP researchers. In this work, we deploy a standard data augmentation methodology by back-translation to a new language translation direction Cantonese-to-English. We present the models we fine-tuned using the limited amount of real data and the synthetic data we generated using back-translation including OpusMT, NLLB, and mBART. We carried out automatic evaluation using a range of different metrics including lexical-based and embedding-based. Furthermore. we create a user-friendly interface for the models we included in this\textsc{ CantonMT} research project and make it available to facilitate Cantonese-to-English MT research. Researchers can add more models into this platform via our open-source\textsc{ CantonMT} toolkit \url{https://github.com/kenrickkung/CantoneseTranslation}.
- Abstract(参考訳): 低リソース言語のためのニューラルマシン翻訳(NMT)は、NLP研究者の前ではまだ難しい課題である。
そこで本研究では,Cantonese-to- English への逆翻訳による標準データ拡張手法を新たに導入する。
実データの限られた量を用いて微調整したモデルと,OpusMT,NLLB,mBARTを含むバックトランスレーションを用いて生成した合成データについて述べる。
語彙ベースや埋め込みベースなど,さまざまな指標を用いて自動評価を行った。
さらに。
私たちは this\textsc{ CantonMT} 研究プロジェクトに含まれるモデルのユーザフレンドリなインターフェースを作成し、Cantonese-to- English MT 研究を促進するために利用します。
このプラットフォームには、オープンソースの\textsc{ CantonMT}ツールキットである \url{https://github.com/kenrickkung/CantoneseTranslation} を通じて、より多くのモデルを追加できます。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation [9.244878233604819]
本稿では、カントン語から英語への機械翻訳モデルの開発と評価について述べる。
オンラインで利用可能なさまざまなコーパスと事前処理とクリーニングを組み合わせることで、新しい並列コーパスが作成されている。
合成並列コーパス生成を支援するために、Webスクレイピングを通じてモノリンガルなカントンデータセットが作成されている。
論文 参考訳(メタデータ) (2024-05-13T20:37:04Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Synthetic Source Language Augmentation for Colloquial Neural Machine
Translation [3.303435360096988]
youtube と twitter から収集した新しいインドネシア英語テストセットを開発した。
インドネシア語正規語のソースに合成スタイル拡張を行い、ベースラインのId-Enモデルを改善することを示す。
論文 参考訳(メタデータ) (2020-12-30T14:52:15Z) - Assessing the Bilingual Knowledge Learned by Neural Machine Translation
Models [72.56058378313963]
NMTモデルで学習したバイリンガル知識をフレーズテーブルで評価することで,このギャップを埋める。
NMTモデルは、単純なものから複雑なものまでパターンを学習し、トレーニング例から本質的なバイリンガル知識を抽出する。
論文 参考訳(メタデータ) (2020-04-28T03:44:34Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。