論文の概要: \textsc{CantoNLU}: A benchmark for Cantonese natural language understanding
- arxiv url: http://arxiv.org/abs/2510.20670v1
- Date: Thu, 23 Oct 2025 15:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.250763
- Title: \textsc{CantoNLU}: A benchmark for Cantonese natural language understanding
- Title(参考訳): \textsc{CantoNLU}: カントン自然言語理解のためのベンチマーク
- Authors: Junghyun Min, York Hay Ng, Sophia Chan, Helena Shunhua Zhao, En-Shiun Annie Lee,
- Abstract要約: 我々は、カントン自然言語理解(NLU)のベンチマークであるtextsctextbfCantoNLUを紹介する。
このベンチマークは、単語感覚の曖昧さ、言語判断、言語検出、自然言語推論、感情分析、音声の一部タグ付け、依存性解析を含む、構文と意味論をカバーする7つのタスクにまたがる。
結果から, カントン適応モデルの方が総合的に優れ, 単言語モデルの方が構文的タスクにおいて優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 2.6328168463115684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cantonese, although spoken by millions, remains under-resourced due to policy and diglossia. To address this scarcity of evaluation frameworks for Cantonese, we introduce \textsc{\textbf{CantoNLU}}, a benchmark for Cantonese natural language understanding (NLU). This novel benchmark spans seven tasks covering syntax and semantics, including word sense disambiguation, linguistic acceptability judgment, language detection, natural language inference, sentiment analysis, part-of-speech tagging, and dependency parsing. In addition to the benchmark, we provide model baseline performance across a set of models: a Mandarin model without Cantonese training, two Cantonese-adapted models obtained by continual pre-training a Mandarin model on Cantonese text, and a monolingual Cantonese model trained from scratch. Results show that Cantonese-adapted models perform best overall, while monolingual models perform better on syntactic tasks. Mandarin models remain competitive in certain settings, indicating that direct transfer may be sufficient when Cantonese domain data is scarce. We release all datasets, code, and model weights to facilitate future research in Cantonese NLP.
- Abstract(参考訳): カントン語は何百万人もの人々が話しているが、政策と威厳のために未資源のままである。
Cantonese の評価フレームワークの不足に対処するため,Cantonese 自然言語理解 (NLU) のベンチマークである \textsc{\textbf{CantoNLU}} を紹介した。
このベンチマークは、単語感覚の曖昧さ、言語受容性判定、言語検出、自然言語推論、感情分析、音声の一部タグ付け、依存性解析を含む、構文と意味論をカバーする7つのタスクにまたがる。
ベンチマークに加えて,カントン学習のないマンダリンモデル,カントンテキスト上でマンダリンモデルを連続的に事前訓練したカントン適応モデル,スクラッチからトレーニングした単言語カントンモデルなど,一連のモデルのモデルベースライン性能も提供する。
結果から, カントン適応モデルの方が総合的に優れ, 単言語モデルの方が構文的タスクにおいて優れていたことが示唆された。
マンダリンモデルは特定の設定で競争力を維持しており、カントンドメインデータが不足している場合に直接転送が十分であることを示している。
Cantonese NLPの今後の研究を促進するために、すべてのデータセット、コード、モデルウェイトをリリースします。
関連論文リスト
- Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Low-Resource NMT: A Case Study on the Written and Spoken Languages in Hong Kong [25.358712649791393]
スポケン・カントネーゼは漢字に転写され、いわゆる「カントネーゼ」を構成する。
カントーン文字は標準中国語と大きな語彙的・文法的な違いを示す。
本稿では,中国語から中国語への翻訳のためのトランスフォーマーベースニューラルマシン翻訳(NMT)システムについて述べる。
論文 参考訳(メタデータ) (2025-05-23T12:32:01Z) - HKCanto-Eval: A Benchmark for Evaluating Cantonese Language Understanding and Cultural Comprehension in LLMs [0.0]
HKCanto-Evalベンチマークは、カントン言語理解タスクにおける大きな言語モデルを評価するために設計されている。
香港固有の文化的・言語的なニュアンスを統合し、現実的なシナリオで言語モデルを評価するための堅牢な枠組みを提供する。
その結果,プロプライエタリなモデルは一般にオープンウェイトモデルより優れているが,カントン固有の言語的・文化的知識を扱う上では,大きな制限が残っていることが示唆された。
論文 参考訳(メタデータ) (2025-03-16T10:26:24Z) - Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models [37.92781445130664]
8500万人以上のネイティブスピーカーを持っているにもかかわらず、カントン語は依然として低リソース言語だと考えられている。
オープンソースコーパス、香港固有のフォーラム、ウィキペディア、Common Crawlデータなど、さまざまなソースからCantoneseのテキストを収集します。
我々は、言語フィルタリング、品質フィルタリング、コンテンツフィルタリング、非複製ステップを通じて厳密なデータ処理を行い、高品質なカントンコーパスの構築に成功した。
論文 参考訳(メタデータ) (2025-03-05T17:53:07Z) - How Well Do LLMs Handle Cantonese? Benchmarking Cantonese Capabilities of Large Language Models [42.83419530688604]
8500万人以上の人々が話していた カントン語のような表現不足言語は 著しい発展のギャップに直面しています
広範に使われているにもかかわらず、カントン語はNLP研究において、特に同様の発展途上国の他の言語と比較して、スカンプト表現を持っている。
我々は、現在のカントンNLP法の概要と、実数生成、数学的論理、複素推論、およびカントンにおける一般知識におけるLLMの性能を評価するために設計された新しいベンチマークを紹介する。
論文 参考訳(メタデータ) (2024-08-29T17:54:14Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - A Study of Modeling Rising Intonation in Cantonese Neural Speech
Synthesis [10.747119651974947]
宣言的な質問は毎日のカントン会話でよく使われる。
Vanilla Neural Text-to-Speech (TTS) システムはこれらの文に対して上昇するイントネーションを合成することができない。
本稿では, BERTに基づく文/問合せ分類器を用いて, Cantonese TTSモデルを補完することを提案する。
論文 参考訳(メタデータ) (2022-08-03T16:21:08Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。