論文の概要: Unsupervised Mandarin-Cantonese Machine Translation
- arxiv url: http://arxiv.org/abs/2301.03971v1
- Date: Tue, 10 Jan 2023 14:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:45:14.428500
- Title: Unsupervised Mandarin-Cantonese Machine Translation
- Title(参考訳): マンダリン・カントネーゼ機械翻訳
- Authors: Megan Dare, Valentina Fajardo Diaz, Averie Ho Zoen So, Yifan Wang,
Shibingfeng Zhang
- Abstract要約: 我々は中国語とカントン語の間の教師なし機械翻訳を調査した。
カントン語を母語とする話者は多いが、大規模なコーパスはいまだに存在しない。
- 参考スコア(独自算出の注目度): 3.1360838651190797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in unsupervised machine translation have enabled the development
of machine translation systems that can translate between languages for which
there is not an abundance of parallel data available. We explored unsupervised
machine translation between Mandarin Chinese and Cantonese. Despite the vast
number of native speakers of Cantonese, there is still no large-scale corpus
for the language, due to the fact that Cantonese is primarily used for oral
communication. The key contributions of our project include: 1. The creation of
a new corpus containing approximately 1 million Cantonese sentences, and 2. A
large-scale comparison across different model architectures, tokenization
schemes, and embedding structures. Our best model trained with character-based
tokenization and a Transformer architecture achieved a character-level BLEU of
25.1 when translating from Mandarin to Cantonese and of 24.4 when translating
from Cantonese to Mandarin. In this paper we discuss our research process,
experiments, and results.
- Abstract(参考訳): 教師なし機械翻訳の進歩により、並列データが豊富でない言語間で翻訳できる機械翻訳システムの開発が可能になった。
中国語とカントン語の教師なし機械翻訳について検討した。
カントン語話者が多数いるにもかかわらず、カントン語が主に口頭コミュニケーションに使われているという事実から、この言語には大規模なコーパスがまだ存在しない。
私たちのプロジェクトの主な貢献は以下のとおりです。
1)約100万のカントン文を含む新しいコーパスの作成と,
2. 異なるモデルアーキテクチャ、トークン化スキーム、埋め込み構造に対する大規模な比較。
文字ベースのトークン化とトランスフォーマーアーキテクチャを訓練した最良のモデルは,マンダリンからカントン語への翻訳で,文字レベルのBLEUが25.1,カントン語からマンダリンへの翻訳で24.4に達した。
本稿では,本研究のプロセス,実験,成果について論じる。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation [29.990957948085956]
カントン翻訳の3方向並列コーパスであるHK-LegiCoSTを紹介する。
コーパス作成における課題として, セグメンテーション, 長い音声録音のアライメント, 非バーベット文字との文レベルのアライメントについて述べる。
論文 参考訳(メタデータ) (2023-06-20T03:09:32Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural
Machine Translation [6.090922774386845]
翻訳モジュールを用いた中国語方言TTSを提案する。
マンダリンのテキストを正しい正書法と文法で慣用表現に変換するのに役立つ。
TTSに翻訳を取り入れた最初の作品である。
論文 参考訳(メタデータ) (2022-06-10T07:46:34Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Local Translation Services for Neglected Languages [0.0]
この研究は、Leonardo da Vinci氏が実践しているように、1)ハッカースピーカー("l33t")と2)逆("mirror")の2つの歴史的に興味深いが難解な言語を翻訳している。
オリジナルのコントリビューションでは、50メガバイト未満のハッカースピーカーを流用している。
長い短期記憶、リカレントニューラルネットワーク(LSTM-RNN)は、最大10,000のバイリンガル文対から構築された英対外翻訳サービスを実証する以前の研究を拡張している。
論文 参考訳(メタデータ) (2021-01-05T16:25:51Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。