論文の概要: No Language Data Left Behind: A Comparative Study of CJK Language Datasets in the Hugging Face Ecosystem
- arxiv url: http://arxiv.org/abs/2507.04329v1
- Date: Sun, 06 Jul 2025 10:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.12213
- Title: No Language Data Left Behind: A Comparative Study of CJK Language Datasets in the Hugging Face Ecosystem
- Title(参考訳): 背後には言語データが残っていない:Hugging Face EcosystemにおけるCJK言語データセットの比較研究
- Authors: Dasol Choi, Woomyoung Park, Youngsook Song,
- Abstract要約: 文化規範,研究環境,制度的実践がデータセットの可用性と品質をどのように形成するかを検討する。
本研究は,中国におけるデータセットの大規模かつ機関主導的な性質,韓国NLPにおける草の根コミュニティ主導の開発,日本コレクションへのエンターテイメントとサブカルチャーの重視,などを明らかにする。
我々は、将来のデータセットのキュレーションとコラボレーションのためのベストプラクティスについて議論し、3つの言語すべてにわたるリソース開発を強化することを目的として締めくくった。
- 参考スコア(独自算出の注目度): 2.1384640984303216
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in Natural Language Processing (NLP) have underscored the crucial role of high-quality datasets in building large language models (LLMs). However, while extensive resources and analyses exist for English, the landscape for East Asian languages - particularly Chinese, Japanese, and Korean (CJK) - remains fragmented and underexplored, despite these languages together serving over 1.6 billion speakers. To address this gap, we investigate the HuggingFace ecosystem from a cross-linguistic perspective, focusing on how cultural norms, research environments, and institutional practices shape dataset availability and quality. Drawing on more than 3,300 datasets, we employ quantitative and qualitative methods to examine how these factors drive distinct creation and curation patterns across Chinese, Japanese, and Korean NLP communities. Our findings highlight the large-scale and often institution-driven nature of Chinese datasets, grassroots community-led development in Korean NLP, and an entertainment- and subculture-focused emphasis on Japanese collections. By uncovering these patterns, we reveal practical strategies for enhancing dataset documentation, licensing clarity, and cross-lingual resource sharing - ultimately guiding more effective and culturally attuned LLM development in East Asia. We conclude by discussing best practices for future dataset curation and collaboration, aiming to strengthen resource development across all three languages.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、大規模言語モデル(LLM)の構築において、高品質なデータセットが重要な役割を担っていることを裏付けている。
しかし、英語の豊富な資源や分析は存在するものの、東アジアの言語(特に中国語、日本語、韓国語(CJK))の景観は、これら言語が16億以上の話者を擁するにもかかわらず、断片化され、未探検のままである。
このギャップに対処するために,HuggingFaceのエコシステムを言語横断的な観点から調査し,文化規範や研究環境,制度的プラクティスがデータセットの可用性と品質をいかに形作るかに注目した。
3300以上のデータセットを描画することにより、中国、日本、韓国のNLPコミュニティにおいて、これらの要因がどのように異なる生成とキュレーションパターンを駆動するかを定量的、定性的に検討する。
本研究は,中国におけるデータセットの大規模かつ機関主導的な性質,韓国NLPにおける草の根コミュニティ主導の開発,日本コレクションへのエンターテイメントとサブカルチャーの重視,などを明らかにする。
これらのパターンを明らかにすることで、データセットの文書化、ライセンスの明確化、言語間のリソース共有の実践的戦略を明らかにします。
我々は、将来のデータセットのキュレーションとコラボレーションのためのベストプラクティスについて議論し、3つの言語すべてにわたるリソース開発を強化することを目的として締めくくった。
関連論文リスト
- Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review [0.7366405857677227]
本稿では、低リソース言語(LRL)における生成言語モデリングにおけるデータ不足に対処する戦略に焦点を当てる。
モノリンガルデータ拡張、バックトランスレーション、多言語トレーニング、即興エンジニアリングなど、技術的アプローチを特定し、分類し、評価する。
我々は,これらの手法を広い範囲のLRLに拡張することを推奨し,同値生成言語システムを構築する上でのオープンな課題を概説する。
論文 参考訳(メタデータ) (2025-05-07T16:04:45Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce [27.918975040084387]
厳密なデータ収集とラベル付けは、より人間中心で社会的に意識された技術を開発するために不可欠である。
我々は,中・低リソース言語に対するNLPアーティファクトに直接かかわる個人からのフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-16T15:51:18Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。