論文の概要: Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.03702v1
- Date: Wed, 05 Mar 2025 17:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:34.035334
- Title: Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるマルチタスクのための大規模カントンデータセットの開発と利用
- Authors: Jiyue Jiang, Alfred Kar Yin Truong, Yanyu Chen, Qinghang Bao, Sheng Wang, Pengan Chen, Jiuming Wang, Lingpeng Kong, Yu Li, Chuan Wu,
- Abstract要約: 8500万人以上のネイティブスピーカーを持っているにもかかわらず、カントン語は依然として低リソース言語だと考えられている。
オープンソースコーパス、香港固有のフォーラム、ウィキペディア、Common Crawlデータなど、さまざまなソースからCantoneseのテキストを収集します。
我々は、言語フィルタリング、品質フィルタリング、コンテンツフィルタリング、非複製ステップを通じて厳密なデータ処理を行い、高品質なカントンコーパスの構築に成功した。
- 参考スコア(独自算出の注目度): 37.92781445130664
- License:
- Abstract: High-quality data resources play a crucial role in learning large language models (LLMs), particularly for low-resource languages like Cantonese. Despite having more than 85 million native speakers, Cantonese is still considered a low-resource language in the field of natural language processing (NLP) due to factors such as the dominance of Mandarin, lack of cohesion within the Cantonese-speaking community, diversity in character encoding and input methods, and the tendency of overseas Cantonese speakers to prefer using English. In addition, rich colloquial vocabulary of Cantonese, English loanwords, and code-switching characteristics add to the complexity of corpus collection and processing. To address these challenges, we collect Cantonese texts from a variety of sources, including open source corpora, Hong Kong-specific forums, Wikipedia, and Common Crawl data. We conduct rigorous data processing through language filtering, quality filtering, content filtering, and de-duplication steps, successfully constructing a high-quality Cantonese corpus of over 2 billion tokens for training large language models. We further refined the model through supervised fine-tuning (SFT) on curated Cantonese tasks, enhancing its ability to handle specific applications. Upon completion of the training, the model achieves state-of-the-art (SOTA) performance on four Cantonese benchmarks. After training on our dataset, the model also exhibits improved performance on other mainstream language tasks.
- Abstract(参考訳): 高品質なデータリソースは、特にCantoneseのような低リソース言語において、大規模言語モデル(LLM)の学習において重要な役割を担います。
8500万人以上の母語話者を持つカントン語は、マンダリンの優位性、カントン話者コミュニティにおける結束の欠如、文字エンコーディングと入力方法の多様性、海外のカントン話者が英語を好んで使う傾向などの要因から、依然として自然言語処理(NLP)の分野で低リソース言語とみなされている。
さらに、カントン語の豊富な語彙、英語の借用語、コードスイッチングの特徴は、コーパスの収集と処理の複雑さを増している。
これらの課題に対処するために、オープンソースコーパス、香港固有のフォーラム、Wikipedia、Common Crawlデータなど、さまざまなソースからカントンテキストを収集します。
我々は,言語フィルタリング,品質フィルタリング,コンテンツフィルタリング,重複解消のステップを通じて厳密なデータ処理を行い,20億以上のトークンからなる高品質なカントンコーパスの構築に成功した。
さらに、キャントンタスクの教師付き微調整(SFT)によってモデルを改良し、特定のアプリケーションを扱う能力を高めた。
トレーニングが完了すると、モデルは4つのカントンベンチマークで最先端(SOTA)のパフォーマンスを達成する。
データセットをトレーニングした後、他の主流言語タスクのパフォーマンスも向上する。
関連論文リスト
- How Well Do LLMs Handle Cantonese? Benchmarking Cantonese Capabilities of Large Language Models [42.83419530688604]
8500万人以上の人々が話していた カントン語のような表現不足言語は 著しい発展のギャップに直面しています
広範に使われているにもかかわらず、カントン語はNLP研究において、特に同様の発展途上国の他の言語と比較して、スカンプト表現を持っている。
我々は、現在のカントンNLP法の概要と、実数生成、数学的論理、複素推論、およびカントンにおける一般知識におけるLLMの性能を評価するために設計された新しいベンチマークを紹介する。
論文 参考訳(メタデータ) (2024-08-29T17:54:14Z) - Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP [13.662528492286528]
本稿では,この課題に対処し,より効率的な言語適応を実現するために,新たな言語間語彙移動戦略であるトランストークン化を提案する。
提案手法は,ソースコードからの意味論的に類似したトークン埋め込みの重み付け平均を用いて,ターゲット言語のトークン埋め込みを初期化することにより,高リソースのモノリンガルLLMを未知のターゲット言語に適応することに焦点を当てる。
複数のスワップ可能な言語モデリングヘッドと埋め込みテーブルを備えたモデルであるHydra LLMを導入し、トランストークン化戦略の能力をさらに拡張した。
論文 参考訳(メタデータ) (2024-08-08T08:37:28Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。