論文の概要: \textsc{CantoNLU}: A benchmark for Cantonese natural language understanding
- arxiv url: http://arxiv.org/abs/2510.20670v1
- Date: Thu, 23 Oct 2025 15:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.250763
- Title: \textsc{CantoNLU}: A benchmark for Cantonese natural language understanding
- Title(参考訳): \textsc{CantoNLU}: カントン自然言語理解のためのベンチマーク
- Authors: Junghyun Min, York Hay Ng, Sophia Chan, Helena Shunhua Zhao, En-Shiun Annie Lee,
- Abstract要約: 我々は、カントン自然言語理解(NLU)のベンチマークであるtextsctextbfCantoNLUを紹介する。
このベンチマークは、単語感覚の曖昧さ、言語判断、言語検出、自然言語推論、感情分析、音声の一部タグ付け、依存性解析を含む、構文と意味論をカバーする7つのタスクにまたがる。
結果から, カントン適応モデルの方が総合的に優れ, 単言語モデルの方が構文的タスクにおいて優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 2.6328168463115684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cantonese, although spoken by millions, remains under-resourced due to policy and diglossia. To address this scarcity of evaluation frameworks for Cantonese, we introduce \textsc{\textbf{CantoNLU}}, a benchmark for Cantonese natural language understanding (NLU). This novel benchmark spans seven tasks covering syntax and semantics, including word sense disambiguation, linguistic acceptability judgment, language detection, natural language inference, sentiment analysis, part-of-speech tagging, and dependency parsing. In addition to the benchmark, we provide model baseline performance across a set of models: a Mandarin model without Cantonese training, two Cantonese-adapted models obtained by continual pre-training a Mandarin model on Cantonese text, and a monolingual Cantonese model trained from scratch. Results show that Cantonese-adapted models perform best overall, while monolingual models perform better on syntactic tasks. Mandarin models remain competitive in certain settings, indicating that direct transfer may be sufficient when Cantonese domain data is scarce. We release all datasets, code, and model weights to facilitate future research in Cantonese NLP.
- Abstract(参考訳): カントン語は何百万人もの人々が話しているが、政策と威厳のために未資源のままである。
Cantonese の評価フレームワークの不足に対処するため,Cantonese 自然言語理解 (NLU) のベンチマークである \textsc{\textbf{CantoNLU}} を紹介した。
このベンチマークは、単語感覚の曖昧さ、言語受容性判定、言語検出、自然言語推論、感情分析、音声の一部タグ付け、依存性解析を含む、構文と意味論をカバーする7つのタスクにまたがる。
ベンチマークに加えて,カントン学習のないマンダリンモデル,カントンテキスト上でマンダリンモデルを連続的に事前訓練したカントン適応モデル,スクラッチからトレーニングした単言語カントンモデルなど,一連のモデルのモデルベースライン性能も提供する。
結果から, カントン適応モデルの方が総合的に優れ, 単言語モデルの方が構文的タスクにおいて優れていたことが示唆された。
マンダリンモデルは特定の設定で競争力を維持しており、カントンドメインデータが不足している場合に直接転送が十分であることを示している。
Cantonese NLPの今後の研究を促進するために、すべてのデータセット、コード、モデルウェイトをリリースします。
関連論文リスト
- Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Low-Resource NMT: A Case Study on the Written and Spoken Languages in Hong Kong [25.358712649791393]
スポケン・カントネーゼは漢字に転写され、いわゆる「カントネーゼ」を構成する。
カントーン文字は標準中国語と大きな語彙的・文法的な違いを示す。
本稿では,中国語から中国語への翻訳のためのトランスフォーマーベースニューラルマシン翻訳(NMT)システムについて述べる。
論文 参考訳(メタデータ) (2025-05-23T12:32:01Z) - Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models [37.92781445130664]
8500万人以上のネイティブスピーカーを持っているにもかかわらず、カントン語は依然として低リソース言語だと考えられている。
オープンソースコーパス、香港固有のフォーラム、ウィキペディア、Common Crawlデータなど、さまざまなソースからCantoneseのテキストを収集します。
我々は、言語フィルタリング、品質フィルタリング、コンテンツフィルタリング、非複製ステップを通じて厳密なデータ処理を行い、高品質なカントンコーパスの構築に成功した。
論文 参考訳(メタデータ) (2025-03-05T17:53:07Z) - How Well Do LLMs Handle Cantonese? Benchmarking Cantonese Capabilities of Large Language Models [42.83419530688604]
8500万人以上の人々が話していた カントン語のような表現不足言語は 著しい発展のギャップに直面しています
広範に使われているにもかかわらず、カントン語はNLP研究において、特に同様の発展途上国の他の言語と比較して、スカンプト表現を持っている。
我々は、現在のカントンNLP法の概要と、実数生成、数学的論理、複素推論、およびカントンにおける一般知識におけるLLMの性能を評価するために設計された新しいベンチマークを紹介する。
論文 参考訳(メタデータ) (2024-08-29T17:54:14Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。