論文の概要: SiPaKosa: A Comprehensive Corpus of Canonical and Classical Buddhist Texts in Sinhala and Pali
- arxiv url: http://arxiv.org/abs/2603.29221v1
- Date: Tue, 31 Mar 2026 03:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.085299
- Title: SiPaKosa: A Comprehensive Corpus of Canonical and Classical Buddhist Texts in Sinhala and Pali
- Title(参考訳): SiPaKosa:シンハラとパリの正典・古典仏典総合コーパス
- Authors: Ranidu Gurusinghe, Nevidu Jayatilleke,
- Abstract要約: SiPaKosa は Sinhala と Pali doctrinal の総括コーパスで、約 786K 文と 9.25M ワードからなる。
コーパスは、Google Document AIを歴史写本に使用して、高品質なOCRによって作成された。
10の事前学習モデルを用いて言語モデルの性能を評価し, コーパス上でのパープレキシティスコアは1.09から189.67である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SiPaKosa is a comprehensive corpus of Sinhala and Pali doctrinal texts comprising approximately 786K sentences and 9.25M words, incorporating 16 copyright-cleared historical Buddhist documents alongside the complete web-scraped Tripitaka canonical texts. The corpus was created through high-quality OCR using Google Document AI on historical manuscripts, combined with systematic web scraping of canonical repositories, followed by rigorous quality control and metadata annotation. The corpus is organised into language-specific subcorpora: Sinhala and Mixed Sinhala-Pali. We evaluate the performance of language models using ten pretrained models, with perplexity scores ranging from 1.09 to 189.67 on our corpus. This analysis shows that proprietary models significantly outperform open-source alternatives by factors of three to six times. This corpus supports the pretraining of domain-adapted language models, facilitates historical language analysis, and aids in the development of information retrieval systems for Buddhist scholarship while preserving Sinhala cultural heritage.
- Abstract(参考訳): SiPaKosaは、約786万の文と9.25万の語からなるシンハラとパリの教義文書の包括的コーパスであり、完全なウェブスクラッドのトリピタカの正典と合わせて16の著作権保護された歴史的仏教文書が組み込まれている。
コーパスは、Google Document AIを使って歴史写本の高品質なOCRを使用して作成され、標準的なリポジトリの体系的なWebスクレイピングと、厳格な品質管理とメタデータアノテーションが組み合わされた。
コーパスは言語固有のサブコーパス、SinhalaとMixed Sinhala-Paliに分けられる。
10の事前学習モデルを用いて言語モデルの性能を評価し, コーパス上でのパープレキシティスコアは1.09から189.67である。
この分析は、プロプライエタリなモデルはオープンソースの代替案を3倍から6倍に大きく上回っていることを示している。
このコーパスは、ドメイン適応型言語モデルの事前訓練を支援し、歴史的言語分析を促進し、新ハラ文化遺産を保存しつつ、仏教研究のための情報検索システムの開発を支援する。
関連論文リスト
- SiDiaC: Sinhala Diachronic Corpus [1.256381443503838]
SiDiaCは5世紀から20世紀にかけての歴史をカバーした最初の総合的なシンハラ・ダイアクロニック・コーパスである。
SiDiaCは、46の文学作品に58kの単語を収録し、その日付に基づいて注意深い注釈を付け、可用性、著作者権、著作権の遵守、データ属性に基づいてフィルタリングする。
論文 参考訳(メタデータ) (2025-09-22T15:37:51Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - HmBlogs: A big general Persian corpus [0.0]
本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。
このコーパスは、ペルシャのブログから約15年間に2000万近いブログ記事を収集して準備されている。
このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。
論文 参考訳(メタデータ) (2021-11-03T17:26:52Z) - Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus [0.0]
デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
論文 参考訳(メタデータ) (2020-05-13T19:23:43Z) - Know thy corpus! Robust methods for digital curation of Web corpora [0.0]
本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
論文 参考訳(メタデータ) (2020-03-13T17:21:57Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。