論文の概要: SiDiaC: Sinhala Diachronic Corpus
- arxiv url: http://arxiv.org/abs/2509.17912v1
- Date: Mon, 22 Sep 2025 15:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.468918
- Title: SiDiaC: Sinhala Diachronic Corpus
- Title(参考訳): SiDiaC: Sinhala Diachronic Corpus
- Authors: Nevidu Jayatilleke, Nisansa de Silva,
- Abstract要約: SiDiaCは5世紀から20世紀にかけての歴史をカバーした最初の総合的なシンハラ・ダイアクロニック・コーパスである。
SiDiaCは、46の文学作品に58kの単語を収録し、その日付に基づいて注意深い注釈を付け、可用性、著作者権、著作権の遵守、データ属性に基づいてフィルタリングする。
- 参考スコア(独自算出の注目度): 1.256381443503838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SiDiaC, the first comprehensive Sinhala Diachronic Corpus, covers a historical span from the 5th to the 20th century CE. SiDiaC comprises 58k words across 46 literary works, annotated carefully based on the written date, after filtering based on availability, authorship, copyright compliance, and data attribution. Texts from the National Library of Sri Lanka were digitised using Google Document AI OCR, followed by post-processing to correct formatting and modernise the orthography. The construction of SiDiaC was informed by practices from other corpora, such as FarPaHC, particularly in syntactic annotation and text normalisation strategies, due to the shared characteristics of low-resourced language status. This corpus is categorised based on genres into two layers: primary and secondary. Primary categorisation is binary, classifying each book into Non-Fiction or Fiction, while the secondary categorisation is more specific, grouping texts under Religious, History, Poetry, Language, and Medical genres. Despite challenges including limited access to rare texts and reliance on secondary date sources, SiDiaC serves as a foundational resource for Sinhala NLP, significantly extending the resources available for Sinhala, enabling diachronic studies in lexical change, neologism tracking, historical syntax, and corpus-based lexicography.
- Abstract(参考訳): シディアック(SiDiaC)は、紀元前5世紀から20世紀にかけての、最初の総合的なシンハラ・ダイアクロニック・コーポレーションである。
SiDiaCは、46の文学作品に58kの単語を収録し、その日付に基づいて注意深い注釈を付け、可用性、著作者権、著作権の遵守、データ属性に基づいてフィルタリングする。
スリランカ国立図書館のテキストは、Google Document AI OCRを使用してデジタル化され、その後、フォーマットの修正と正書法の近代化のために後処理が行われた。
SiDiaCの構築は、FarPaHCのような他のコーパスから、特に構文アノテーションやテキスト正規化戦略において、低リソース言語ステータスの共有特性のために、通知された。
このコーパスはジャンルに基づいて、プライマリとセカンダリの2つの層に分類される。
第一の分類は二分法であり、各本をノンフィクションまたはフィクションに分類し、第二の分類はより具体的であり、宗教、歴史、詩、言語、医学のジャンルを分類する。
希少テキストへのアクセスの制限や二次日付ソースへの依存といった課題にもかかわらず、SiDiaCはシンハラNLPの基礎資源として機能し、シンハラで利用可能なリソースを大幅に拡張し、語彙変化、ネオロジズム追跡、歴史構文、コーパスベースのレキシコグラフィーのダイアクロニックな研究を可能にした。
関連論文リスト
- Loci Similes: A Benchmark for Extracting Intertextualities in Latin Literature [4.132158161225706]
Loci Similesは、古代後期の著者と古典作家のコーパスをリンクする545人の専門家による検証された並列を含む172kテキストセグメントのキュレートされたデータセットからなるラテン語のテクスチュアリティ検出のベンチマークである。
我々は,最先端のLLMを用いた文間関係の検索と分類のベースラインを確立する。
論文 参考訳(メタデータ) (2026-01-12T13:34:49Z) - Multilingual corpora for the study of new concepts in the social sciences and humanities: [0.0]
本稿では,人文科学と社会科学の新たな概念の研究を支援するために,多言語コーパスを構築するためのハイブリッド手法を提案する。
コーパスは,(1)企業ウェブサイトから自動的に抽出されたテキストコンテンツ,(2)文書基準(年,フォーマット,複製)に従って収集・フィルタリングされた年次報告,の2つの補完資料に依存している。
処理パイプラインは、自動言語検出、非関連コンテンツのフィルタリング、関連するセグメントの抽出、構造メタデータの強化を含む。
論文 参考訳(メタデータ) (2025-12-08T10:04:50Z) - ANUBHUTI: A Comprehensive Corpus For Sentiment Analysis In Bangla Regional Languages [0.5062312533373298]
ANUBHUTIは、低資源バングラ方言における感情分析のためのリソースの重大なギャップを埋める。
このデータセットは、バングラデシュの現代社会の政治的景観を反映して、政治的および宗教的な内容が特徴的である。
データセットは、欠落したデータ、異常、不整合の体系的なチェックによってさらに改善された。
論文 参考訳(メタデータ) (2025-06-26T18:13:54Z) - Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone [4.795582035438343]
歴史的テキストの課題に適応できる計算技術が緊急に必要である。
大規模言語モデル(LLM)の台頭は、自然言語処理に革命をもたらした。
イタリア語のテキストに対する詳細な評価は提案されていない。
論文 参考訳(メタデータ) (2025-05-26T15:16:48Z) - A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950 [0.0]
本稿では,大言語モデル(LLM)と従来の自然言語処理(NLP)ツールを比較し,単語セグメンテーション,POSタグ付け,名前付きエンティティ認識(NER)について述べる。
歴史的中国の文書は、その書体、自然語境界の欠如、言語学的変化により、テキスト分析の課題を提起している。
論文 参考訳(メタデータ) (2025-03-25T17:07:21Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark [44.06803331843307]
段落レベルのトピック構造は、ドキュメント全体のコンテキストをより高いレベルから把握し、理解することができる。
大規模で高品質な中国語段落レベルの話題構造コーパスの欠如は研究や応用を妨げた。
コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
2段階のマンマシン・コラボレーティブ・アノテーションを用いて,中国最大規模のトピック構造コーパスを構築する。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - Razmecheno: Named Entity Recognition from Digital Archive of Diaries
"Prozhito" [1.4823641127537543]
本稿では,ロシア語のプロジェクトProzhitoの日記テキストから収集した新しいデータセット"Razmecheno"を作成することを目的とする。
ラズメチーノは1331の文と14119のトークンで構成されており、ペレストロイカ時代に書かれた日記から採集されている。
論文 参考訳(メタデータ) (2022-01-24T23:06:01Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。