論文の概要: SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0
- arxiv url: http://arxiv.org/abs/2603.10861v1
- Date: Wed, 11 Mar 2026 15:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.018415
- Title: SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0
- Title(参考訳): SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0
- Authors: Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas,
- Abstract要約: SiDiaC-v.2.0は、1800年から1955年までの期間をカバーし、これまでで最大の総合的なシンハラ・ダイアクロニックである。
コーパスは185の文学作品にまたがる244kワードで構成されており、徹底的なフィルタリング、前処理、著作権コンプライアンスチェックが実施されている。
合計70k語からなる59の文書のサブセットは、その日付に基づいて注釈付けされた。
- 参考スコア(独自算出の注目度): 0.9001507266214666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SiDiaC-v.2.0 is the largest comprehensive Sinhala Diachronic Corpus to date, covering a period from 1800 CE to 1955 CE in terms of publication dates, and a historical span from the 5th to the 20th century CE in terms of written dates. The corpus consists of 244k words across 185 literary works that underwent thorough filtering, preprocessing, and copyright compliance checks, followed by extensive post-processing. Additionally, a subset of 59 documents totalling 70k words was annotated based on their written dates. Texts from the National Library of Sri Lanka were selected from the SiDiaC-v.1.0 non-filtered list, which was digitised using Google Document AI OCR. This was followed by post-processing to correct formatting issues, address code-mixing, include special tokens, and fix malformed tokens. The construction of SiDiaC-v.2.0 was informed by practices from other corpora, such as FarPaHC, SiDiaC-v.1.0, and CCOHA. This was particularly relevant for syntactic annotation and text normalisation strategies, given the shared characteristics of low-resource language status between Faroese and the similar cleaning strategies utilised in CCOHA. This corpus is categorised into two layers based on genres: primary and secondary. The primary categorisation is binary, assigning each book to either Non-Fiction or Fiction. The secondary categorisation is more detailed, grouping texts under specific genres such as Religious, History, Poetry, Language, and Medical. Despite facing challenges due to limited resources, SiDiaC-v.2.0 serves as a comprehensive resource for Sinhala NLP, building upon the work previously done in SiDiaC-v.1.0.
- Abstract(参考訳): SiDiaC-v.2.0 は、1800年から1955年までの出版年代、そして5世紀から20世紀にかけての文書の日付を網羅した、史上最大の総合的なシンハラ・ダイアクロニック・コーポレーションである。
コーパスは185の文学作品にまたがる244kワードで構成され、徹底的なフィルタリング、事前処理、著作権コンプライアンスチェックを受け、さらに広範囲な後処理が行われた。
さらに、全7万語からなる59の文書のサブセットが、その日付に基づいて注釈付けされた。
スリランカ国立図書館のテキストは、Google Document AI OCRを使ってデジタル化されたSiDiaC-v.1.0ノンフィルターリストから選ばれた。
その後、フォーマット問題を修正するための後処理、コードミキシングへの対処、特別なトークンを含むこと、不正なトークンを修正することなどが続いた。
SiDiaC-v.2.0の構築は、FarPaHC、SiDiaC-v.1.0、CCOHAといった他のコーパスからの情報を得た。
これは特に構文アノテーションとテキスト正規化戦略に関係しており、フェロー語とCCOHAで使用される類似のクリーニング戦略との間の低リソース言語ステータスの共有特性を考慮に入れている。
このコーパスは、セカンダリとセカンダリの2つの階層に分類される。
主な分類はバイナリであり、各本をノンフィクションまたはフィクションに割り当てる。
第二の分類はより詳細で、宗教、歴史、詩、言語、医学といった特定のジャンルのテキストを分類する。
SiDiaC-v.1.0は限られたリソースのために困難に直面しているが、Sinhala NLPの総合的なリソースとして機能し、以前はSiDiaC-v.1.0で行われていた作業に基づいている。
関連論文リスト
- Cross-Lingual SynthDocs: A Large-Scale Synthetic Corpus for Any to Arabic OCR and Document Understanding [3.587092806938212]
Cross-Lingual SynthDocsは、光学文字認識(OCR)と文書理解(DU)のためのアラビア語リソースの不足に対処するために設計された大規模な合成コーパスである。
データセットは、150万のテキストデータ、270万の注釈付きテーブル、数十万の実際のデータベースチャートを含む、250万以上のサンプルで構成されている。
論文 参考訳(メタデータ) (2025-11-01T04:54:58Z) - SiDiaC: Sinhala Diachronic Corpus [1.256381443503838]
SiDiaCは5世紀から20世紀にかけての歴史をカバーした最初の総合的なシンハラ・ダイアクロニック・コーパスである。
SiDiaCは、46の文学作品に58kの単語を収録し、その日付に基づいて注意深い注釈を付け、可用性、著作者権、著作権の遵守、データ属性に基づいてフィルタリングする。
論文 参考訳(メタデータ) (2025-09-22T15:37:51Z) - Scaling Rich Style-Prompted Text-to-Speech Datasets [54.50850884210504]
Paralinguistic Speech Captions (ParaSpeechCaps) は、リッチなスタイルのキャプションで音声を注釈する大規模データセットである。
ParaSpeechCapsは、話者レベルの固有のタグと発話レベルの状況タグを含む、59種類のタグをカバーしている。
人間のラベル付きデータ342時間、自動注釈付きデータ2427時間で構成される。
論文 参考訳(メタデータ) (2025-03-06T18:57:40Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Combining Morphological and Histogram based Text Line Segmentation in
the OCR Context [0.0]
本論文で提案するアルゴリズム的アプローチはこの目的のために設計されている。
本手法は, 品質問題に特有な歴史的データ収集に適用するために開発された。
計算コストの低さが組み合わさった有望なセグメンテーション結果のため、このアルゴリズムはルクセンブルク国立図書館のocrパイプラインに組み込まれた。
論文 参考訳(メタデータ) (2021-03-16T09:06:25Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Announcing CzEng 2.0 Parallel Corpus with over 2 Gigawords [12.561914014993675]
本稿では,チェコ語のパラレルコーパスCzEng 2.0の新たなリリースについて述べる。
コーパスには文書レベルの情報が含まれており、ノイズの量を減らすためにいくつかのテクニックでフィルタリングされる。
論文 参考訳(メタデータ) (2020-07-06T18:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。