論文の概要: SiDiaC: Sinhala Diachronic Corpus
- arxiv url: http://arxiv.org/abs/2509.17912v1
- Date: Mon, 22 Sep 2025 15:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.468918
- Title: SiDiaC: Sinhala Diachronic Corpus
- Title(参考訳): SiDiaC: Sinhala Diachronic Corpus
- Authors: Nevidu Jayatilleke, Nisansa de Silva,
- Abstract要約: SiDiaCは5世紀から20世紀にかけての歴史をカバーした最初の総合的なシンハラ・ダイアクロニック・コーパスである。
SiDiaCは、46の文学作品に58kの単語を収録し、その日付に基づいて注意深い注釈を付け、可用性、著作者権、著作権の遵守、データ属性に基づいてフィルタリングする。
- 参考スコア(独自算出の注目度): 1.256381443503838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SiDiaC, the first comprehensive Sinhala Diachronic Corpus, covers a historical span from the 5th to the 20th century CE. SiDiaC comprises 58k words across 46 literary works, annotated carefully based on the written date, after filtering based on availability, authorship, copyright compliance, and data attribution. Texts from the National Library of Sri Lanka were digitised using Google Document AI OCR, followed by post-processing to correct formatting and modernise the orthography. The construction of SiDiaC was informed by practices from other corpora, such as FarPaHC, particularly in syntactic annotation and text normalisation strategies, due to the shared characteristics of low-resourced language status. This corpus is categorised based on genres into two layers: primary and secondary. Primary categorisation is binary, classifying each book into Non-Fiction or Fiction, while the secondary categorisation is more specific, grouping texts under Religious, History, Poetry, Language, and Medical genres. Despite challenges including limited access to rare texts and reliance on secondary date sources, SiDiaC serves as a foundational resource for Sinhala NLP, significantly extending the resources available for Sinhala, enabling diachronic studies in lexical change, neologism tracking, historical syntax, and corpus-based lexicography.
- Abstract(参考訳): シディアック(SiDiaC)は、紀元前5世紀から20世紀にかけての、最初の総合的なシンハラ・ダイアクロニック・コーポレーションである。
SiDiaCは、46の文学作品に58kの単語を収録し、その日付に基づいて注意深い注釈を付け、可用性、著作者権、著作権の遵守、データ属性に基づいてフィルタリングする。
スリランカ国立図書館のテキストは、Google Document AI OCRを使用してデジタル化され、その後、フォーマットの修正と正書法の近代化のために後処理が行われた。
SiDiaCの構築は、FarPaHCのような他のコーパスから、特に構文アノテーションやテキスト正規化戦略において、低リソース言語ステータスの共有特性のために、通知された。
このコーパスはジャンルに基づいて、プライマリとセカンダリの2つの層に分類される。
第一の分類は二分法であり、各本をノンフィクションまたはフィクションに分類し、第二の分類はより具体的であり、宗教、歴史、詩、言語、医学のジャンルを分類する。
希少テキストへのアクセスの制限や二次日付ソースへの依存といった課題にもかかわらず、SiDiaCはシンハラNLPの基礎資源として機能し、シンハラで利用可能なリソースを大幅に拡張し、語彙変化、ネオロジズム追跡、歴史構文、コーパスベースのレキシコグラフィーのダイアクロニックな研究を可能にした。
関連論文リスト
- ANUBHUTI: A Comprehensive Corpus For Sentiment Analysis In Bangla Regional Languages [0.5062312533373298]
ANUBHUTIは、低資源バングラ方言における感情分析のためのリソースの重大なギャップを埋める。
このデータセットは、バングラデシュの現代社会の政治的景観を反映して、政治的および宗教的な内容が特徴的である。
データセットは、欠落したデータ、異常、不整合の体系的なチェックによってさらに改善された。
論文 参考訳(メタデータ) (2025-06-26T18:13:54Z) - Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone [4.795582035438343]
歴史的テキストの課題に適応できる計算技術が緊急に必要である。
大規模言語モデル(LLM)の台頭は、自然言語処理に革命をもたらした。
イタリア語のテキストに対する詳細な評価は提案されていない。
論文 参考訳(メタデータ) (2025-05-26T15:16:48Z) - A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950 [0.0]
本稿では,大言語モデル(LLM)と従来の自然言語処理(NLP)ツールを比較し,単語セグメンテーション,POSタグ付け,名前付きエンティティ認識(NER)について述べる。
歴史的中国の文書は、その書体、自然語境界の欠如、言語学的変化により、テキスト分析の課題を提起している。
論文 参考訳(メタデータ) (2025-03-25T17:07:21Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark [44.06803331843307]
段落レベルのトピック構造は、ドキュメント全体のコンテキストをより高いレベルから把握し、理解することができる。
大規模で高品質な中国語段落レベルの話題構造コーパスの欠如は研究や応用を妨げた。
コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
2段階のマンマシン・コラボレーティブ・アノテーションを用いて,中国最大規模のトピック構造コーパスを構築する。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito" [1.4823641127537543]
本稿では,ロシア語のプロジェクトProzhitoの日記テキストから収集した新しいデータセット"Razmecheno"を作成することを目的とする。
ラズメチーノは1331の文と14119のトークンで構成されており、ペレストロイカ時代に書かれた日記から採集されている。
論文 参考訳(メタデータ) (2022-01-24T23:06:01Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。