論文の概要: Low-Resource NMT: A Case Study on the Written and Spoken Languages in Hong Kong
- arxiv url: http://arxiv.org/abs/2505.17816v1
- Date: Fri, 23 May 2025 12:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.065276
- Title: Low-Resource NMT: A Case Study on the Written and Spoken Languages in Hong Kong
- Title(参考訳): 低リソースNTT:香港における書字・音声言語を事例として
- Authors: Hei Yi Mak, Tan Lee,
- Abstract要約: スポケン・カントネーゼは漢字に転写され、いわゆる「カントネーゼ」を構成する。
カントーン文字は標準中国語と大きな語彙的・文法的な違いを示す。
本稿では,中国語から中国語への翻訳のためのトランスフォーマーベースニューラルマシン翻訳(NMT)システムについて述べる。
- 参考スコア(独自算出の注目度): 25.358712649791393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The majority of inhabitants in Hong Kong are able to read and write in standard Chinese but use Cantonese as the primary spoken language in daily life. Spoken Cantonese can be transcribed into Chinese characters, which constitute the so-called written Cantonese. Written Cantonese exhibits significant lexical and grammatical differences from standard written Chinese. The rise of written Cantonese is increasingly evident in the cyber world. The growing interaction between Mandarin speakers and Cantonese speakers is leading to a clear demand for automatic translation between Chinese and Cantonese. This paper describes a transformer-based neural machine translation (NMT) system for written-Chinese-to-written-Cantonese translation. Given that parallel text data of Chinese and Cantonese are extremely scarce, a major focus of this study is on the effort of preparing good amount of training data for NMT. In addition to collecting 28K parallel sentences from previous linguistic studies and scattered internet resources, we devise an effective approach to obtaining 72K parallel sentences by automatically extracting pairs of semantically similar sentences from parallel articles on Chinese Wikipedia and Cantonese Wikipedia. We show that leveraging highly similar sentence pairs mined from Wikipedia improves translation performance in all test sets. Our system outperforms Baidu Fanyi's Chinese-to-Cantonese translation on 6 out of 8 test sets in BLEU scores. Translation examples reveal that our system is able to capture important linguistic transformations between standard Chinese and spoken Cantonese.
- Abstract(参考訳): 香港の住民の大多数は中国語で読み書きできるが、日常ではカントン語を主要な話し言葉として使っている。
スポケン・カントネーゼは漢字に転写され、いわゆる「カントネーゼ」を構成する。
カントーン語は標準中国語と大きな語彙的・文法的な違いを示す。
著述されたカントニズムの台頭は、サイバーの世界ではますます明白になっている。
マンダリン語話者とカントン語話者の相互作用の高まりは、中国語とカントン語の自動翻訳に対する明確な要求につながっている。
本稿では,中国語から中国語への翻訳のためのトランスフォーマーベースニューラルネットワーク(NMT)システムについて述べる。
中国語とカントン語の並行テキストデータは非常に少ないことから、本研究はNTTのための大量のトレーニングデータの作成に重点を置いている。
従来の言語研究や散在するインターネット資源から28Kのパラレル文を収集するだけでなく,中国語ウィキペディアとカントン語ウィキペディアのパラレル記事から,意味的に類似した文のペアを自動的に抽出することで,72Kパラレル文を得るための効果的なアプローチを考案した。
ウィキペディアから抽出した非常に類似した文ペアを利用することで、全てのテストセットの翻訳性能が向上することを示す。
我々のシステムは、BLEUスコアの8つのテストセットのうち6つでBaidu Fanyiの中国語と漢字の翻訳を上回ります。
翻訳例から,我々のシステムは標準中国語と話されるカント語間の重要な言語変換を捉えることができることが明らかになった。
関連論文リスト
- Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models [37.92781445130664]
8500万人以上のネイティブスピーカーを持っているにもかかわらず、カントン語は依然として低リソース言語だと考えられている。
オープンソースコーパス、香港固有のフォーラム、ウィキペディア、Common Crawlデータなど、さまざまなソースからCantoneseのテキストを収集します。
我々は、言語フィルタリング、品質フィルタリング、コンテンツフィルタリング、非複製ステップを通じて厳密なデータ処理を行い、高品質なカントンコーパスの構築に成功した。
論文 参考訳(メタデータ) (2025-03-05T17:53:07Z) - The Role of Handling Attributive Nouns in Improving Chinese-To-English Machine Translation [5.64086253718739]
特に、中国語の帰属名詞による翻訳課題を対象とし、英語翻訳における曖昧さをしばしば引き起こす。
省略粒子X('DE')を手動で挿入することで、この臨界関数ワードの処理方法を改善する。
論文 参考訳(メタデータ) (2024-12-18T20:37:52Z) - When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - How Well Do LLMs Handle Cantonese? Benchmarking Cantonese Capabilities of Large Language Models [42.83419530688604]
8500万人以上の人々が話していた カントン語のような表現不足言語は 著しい発展のギャップに直面しています
広範に使われているにもかかわらず、カントン語はNLP研究において、特に同様の発展途上国の他の言語と比較して、スカンプト表現を持っている。
我々は、現在のカントンNLP法の概要と、実数生成、数学的論理、複素推論、およびカントンにおける一般知識におけるLLMの性能を評価するために設計された新しいベンチマークを紹介する。
論文 参考訳(メタデータ) (2024-08-29T17:54:14Z) - HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation [29.990957948085956]
カントン翻訳の3方向並列コーパスであるHK-LegiCoSTを紹介する。
コーパス作成における課題として, セグメンテーション, 長い音声録音のアライメント, 非バーベット文字との文レベルのアライメントについて述べる。
論文 参考訳(メタデータ) (2023-06-20T03:09:32Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Unsupervised Mandarin-Cantonese Machine Translation [3.1360838651190797]
我々は中国語とカントン語の間の教師なし機械翻訳を調査した。
カントン語を母語とする話者は多いが、大規模なコーパスはいまだに存在しない。
論文 参考訳(メタデータ) (2023-01-10T14:09:40Z) - A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural
Machine Translation [6.090922774386845]
翻訳モジュールを用いた中国語方言TTSを提案する。
マンダリンのテキストを正しい正書法と文法で慣用表現に変換するのに役立つ。
TTSに翻訳を取り入れた最初の作品である。
論文 参考訳(メタデータ) (2022-06-10T07:46:34Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。