論文の概要: ks-lit-3m: A 3.1 million word kashmiri text dataset for large language model pretraining
- arxiv url: http://arxiv.org/abs/2601.01091v1
- Date: Sat, 03 Jan 2026 06:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.024815
- Title: ks-lit-3m: A 3.1 million word kashmiri text dataset for large language model pretraining
- Title(参考訳): ks-lit-3m:大規模言語モデル事前学習のための3100万ワードのカシュミリテキストデータセット
- Authors: Haq Nawaz Malik,
- Abstract要約: 本稿では,KS-LIT-3Mについて紹介する。KS-LIT-3MはKashmiri上での事前学習用に特別に設計された3100万語(164万文字)のコーパスである。
データセットはCC-BY-4.0ライセンスでリリースされ、Kashmiri自然言語処理の研究を容易にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) demonstrate remarkable fluency across high-resource languages yet consistently fail to generate coherent text in Kashmiri, a language spoken by approximately seven million people. This performance disparity stems not from inherent model limitations but from a critical scarcity of high-quality training data. Decades of Kashmiri literature remain inaccessible to modern NLP pipelines due to their encoding in the proprietary InPage desktop publishing format. This paper introduces KS-LIT-3M, a curated corpus of 3.1 million words (16.4 million characters) specifically designed for pretraining language models on Kashmiri. The dataset is structured as a single continuous linear text stream, optimized for causal language model training where models learn to predict subsequent tokens from preceding context. The corpus was constructed through the development of a specialized InPage-to-Unicode converter, followed by rigorous preprocessing including English contamination removal, character normalization, and quality validation. Encompassing 131,607 unique words drawn from diverse genres including literary works, journalistic writing, academic texts, and religious scholarship, KS-LIT-3M addresses a fundamental resource gap for Kashmiri language technology. The dataset is released under the CC-BY-4.0 license to facilitate research in Kashmiri natural language processing.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高レベルの言語で顕著な流布を示すが、約700万人が話す言語であるKashmiriでは一貫して一貫性のあるテキストを生成することができない。
この性能格差は、固有のモデル制限ではなく、高品質なトレーニングデータの致命的な不足に起因する。
カシミリ文学の数十年は、プロプライエタリなInPageデスクトップパブリッシングフォーマットのエンコーディングのため、現代のNLPパイプラインにはアクセスできないままである。
本稿では,KS-LIT-3Mについて紹介する。KS-LIT-3MはKashmiri上での事前学習用に特別に設計された3100万語(164万文字)のコーパスである。
データセットは単一の連続した線形テキストストリームとして構成され、因果言語モデルのトレーニングに最適化されている。
コーパスは特別なInPage-to-Unicodeコンバータを開発し、続いて英語の汚染除去、文字正規化、品質検証などの厳格な前処理を行った。
KS-LIT-3Mは、文学作品、ジャーナリストの文章、学術論文、宗教学など様々なジャンルから抽出された131,607のユニークな単語を包含し、カシュミリ語技術の基本的資源ギャップに対処する。
データセットはCC-BY-4.0ライセンスでリリースされ、Kashmiri自然言語処理の研究を容易にする。
関連論文リスト
- mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。
データに1700以上の低リソース言語を追加しています。
分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (2025-09-08T17:08:42Z) - Towards Building Large Scale Datasets and State-of-the-Art Automatic Speech Translation Systems for 14 Indian Languages [27.273651323572786]
BhasaAnuvaadは、インドの言語で最大の音声翻訳データセットで、4400万時間以上のオーディオと1700万行のテキストセグメントにまたがる。
本実験は, 翻訳品質の向上を実証し, インド語音声翻訳の新しい標準を設定した。
アクセシビリティとコラボレーションを促進するために、許容ライセンス付きのすべてのコード、データ、モデルの重みをオープンソースでリリースします。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models
and Evaluation Benchmarks [0.7874708385247353]
私たちは、コードミキシングにおける事前の作業が欠けている低リソースのインドの言語であるMarathiにフォーカスしています。
L3Cube-MeCorpusは,Mr-Enコーパスと1000万のソーシャルメディア文による事前学習用コーパスである。
また、コード混合BERTベースのトランスモデルであるL3Cube-MeBERTとMeRoBERTaをMeCorpusで事前学習した。
論文 参考訳(メタデータ) (2023-06-24T18:17:38Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。