論文の概要: SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts
- arxiv url: http://arxiv.org/abs/2603.04854v1
- Date: Thu, 05 Mar 2026 06:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.097853
- Title: SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts
- Title(参考訳): SinhaLegal: Sinhala Legislative Textsにおける情報抽出と分析のためのベンチマークコーパス
- Authors: Minduli Lasandi, Nevidu Jayatilleke,
- Abstract要約: SinhaLegalは1,206件の法的文書に約200万語を含むSinhala法定テキストコーパスを導入している。
データセットには、1981年から2014年までの1,065件、2010年から2014年までの141件の法律文書が含まれている。
テキストは、Google Document AIでOCRを使用して抽出され、続いて広範な後処理と手作業によるクリーニングにより、高品質でマシン可読なコンテンツが保証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SinhaLegal introduces a Sinhala legislative text corpus containing approximately 2 million words across 1,206 legal documents. The dataset includes two types of legal documents: 1,065 Acts dated from 1981 to 2014 and 141 Bills from 2010 to 2014, which were systematically collected from official sources. The texts were extracted using OCR with Google Document AI, followed by extensive post-processing and manual cleaning to ensure high-quality, machine-readable content, along with dedicated metadata files for each document. A comprehensive evaluation was conducted, including corpus statistics, lexical diversity, word frequency analysis, named entity recognition, and topic modelling, demonstrating the structured and domain-specific nature of the corpus. Additionally, perplexity analysis using both large and small language models was performed to assess how effectively language models respond to domain-specific texts. The SinhaLegal corpus represents a vital resource designed to support NLP tasks such as summarisation, information extraction, and analysis, thereby bridging a critical gap in Sinhala legal research.
- Abstract(参考訳): SinhaLegalは1,206件の法的文書に約200万語を含むSinhala法定テキストコーパスを導入している。
データセットには、1981年から2014年までの1,065件の法律文書と、2010年から2014年までの141件の法案が、公式資料から体系的に収集された。
テキストは、Google Document AIでOCRを使用して抽出され、続いて広範な後処理と手作業によるクリーニングによって、高品質でマシン可読なコンテンツと、各ドキュメント専用のメタデータファイルが保証された。
コーパス統計,語彙多様性,単語頻度分析,名前付きエンティティ認識,トピックモデリングなどの総合的な評価を行い,コーパスの構造的およびドメイン固有の性質を実証した。
さらに,大小の言語モデルと大小の言語モデルを用いたパープレキシティ解析を行い,ドメイン固有テキストに対する言語モデルの有効性を評価する。
SinhaLegal corpusは、要約、情報抽出、分析などのNLPタスクをサポートするために設計された重要なリソースであり、これによりシンハラの法研究における重要なギャップを埋める。
関連論文リスト
- NeuCLIRTech: Chinese Monolingual and Cross-Language Information Retrieval Evaluation in a Challenging Domain [49.3943974580576]
本稿では,技術情報に対するクロスランゲージ検索のための評価収集であるNeuCLIRTechについて述べる。
このコレクションは中国語で書かれた技術文書と、その機械が英語に翻訳されたもので構成されている。
このコレクションは中国語での単言語検索と、クエリ言語としての英語による言語横断検索という2つの検索シナリオをサポートしている。
論文 参考訳(メタデータ) (2026-02-05T05:57:55Z) - CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning [48.56088080889236]
我々は、新しいデータ合成フレームワークによって生成された1000万のトークンをスケーリングする新しいベンチマークであるCorpusQAを紹介した。
合成データの微調整はLLMの一般的な長文推論能力を効果的に向上させることを示す。
メモリ拡張型エージェントアーキテクチャは,より堅牢な代替手段であることを示す。
論文 参考訳(メタデータ) (2026-01-21T12:52:30Z) - Transforming Sensitive Documents into Quantitative Data: An AI-Based Preprocessing Toolchain for Structured and Privacy-Conscious Analysis [0.0]
大規模分析は、機密性の高い個人識別可能な情報の存在によって妨げられる。
埋め込み型解析のためのテキストデータを作成するモジュラーツールチェーンを提案する。
スウェーデンの裁判所判決10,842件のコーパス上で,このツールチェーンを実証した。
論文 参考訳(メタデータ) (2025-07-11T11:58:36Z) - Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges [7.767611860493713]
本調査は,手動フィルタリング後の131項目を最終選択した154の研究をレビューし,システムレビューおよびメタ分析フレームワークの優先報告項目に従う。
法律分野におけるNLPに関する基礎概念を探求し、法律文書の処理の独特な側面と課題を詳述する。
本稿では, 文書要約, エンティティ認識, 質問回答, 議論マイニング, テキスト分類, 判断予測など, 法的テキストに特有のNLPタスクの概要について述べる。
論文 参考訳(メタデータ) (2024-10-25T01:17:02Z) - CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK
Case Law Dataset [0.0]
本研究は, 英国裁判所判決の大規模コーパスから, 判例, 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、
我々は、ケンブリッジ法コーパス356,011英国の裁判所決定を用いて、大きな言語モデルは、キーワードに対して重み付けされたF1スコアが0.94対0.78であると判断する。
我々は,3,102件の要約判断事例を同定し抽出し,その分布を時間的範囲の様々な英国裁判所にマップできるようにする。
論文 参考訳(メタデータ) (2024-03-04T10:13:30Z) - Neural Natural Language Processing for Long Texts: A Survey on Classification and Summarization [6.728794938150435]
ディープニューラルネットワーク(DNN)の採用は自然言語処理(NLP)に大きな恩恵を受けている。
オンラインにアップロードされた文書のサイズがますます大きくなると、長文の自動理解が重要な問題になる。
この記事では、この動的ドメインのエントリポイントとして機能し、2つの目的を達成することを目的としています。
論文 参考訳(メタデータ) (2023-05-25T17:13:44Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。