論文の概要: Named entity recognition for Serbian legal documents: Design, methodology and dataset development
- arxiv url: http://arxiv.org/abs/2502.10582v1
- Date: Fri, 14 Feb 2025 22:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:18.267946
- Title: Named entity recognition for Serbian legal documents: Design, methodology and dataset development
- Title(参考訳): セルビアの法律文書における名前付きエンティティ認識:設計・方法論・データセット開発
- Authors: Vladimir Kalušev, Branko Brkljač,
- Abstract要約: セルビア語で書かれた法的文書の場合には,名前付きエンティティ認識(NER)の一解法を提案する。
これは、テキストコンテンツから特定のデータポイントを識別し分類する特定のタスクに慎重に適応していた変換器(BERT)からの事前訓練された双方向エンコーダ表現を活用している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advancements in the field of natural language processing (NLP) and especially large language models (LLMs) and their numerous applications have brought research attention to design of different document processing tools and enhancements in the process of document archiving, search and retrieval. Domain of official, legal documents is especially interesting due to vast amount of data generated on the daily basis, as well as the significant community of interested practitioners (lawyers, law offices, administrative workers, state institutions and citizens). Providing efficient ways for automation of everyday work involving legal documents is therefore expected to have significant impact in different fields. In this work we present one LLM based solution for Named Entity Recognition (NER) in the case of legal documents written in Serbian language. It leverages on the pre-trained bidirectional encoder representations from transformers (BERT), which had been carefully adapted to the specific task of identifying and classifying specific data points from textual content. Besides novel dataset development for Serbian language (involving public court rulings), presented system design and applied methodology, the paper also discusses achieved performance metrics and their implications for objective assessment of the proposed solution. Performed cross-validation tests on the created manually labeled dataset with mean $F_1$ score of 0.96 and additional results on the examples of intentionally modified text inputs confirm applicability of the proposed system design and robustness of the developed NER solution.
- Abstract(参考訳): 自然言語処理(NLP)の分野、特に大規模言語モデル(LLM)とその多くの応用の進歩は、異なる文書処理ツールの設計や文書アーカイブ、検索、検索のプロセスの強化に研究の注意を向けている。
公的、法的文書の領域は、日々発生した膨大な量のデータと、弁護士、法律事務所、行政労働者、国家機関、市民といった重要な実践者のコミュニティによって特に興味深い。
そのため、法律文書を含む日常業務の自動化のための効率的な方法を提供することは、異なる分野に重大な影響を与えることが期待されている。
本研究では,セルビア語で書かれた法的文書の場合,名前付きエンティティ認識(NER)のためのLCMベースのソリューションを提案する。
これは、テキストコンテンツから特定のデータポイントを識別し分類する特定のタスクに慎重に適応していた変換器(BERT)からの事前訓練された双方向エンコーダ表現を活用している。
セルビア語のための新しいデータセット開発(公判判決を含む)に加えて,システム設計と適用手法を提示するとともに,提案手法の達成した性能指標と,提案手法の客観的評価に与える影響についても考察した。
作成したラベル付きデータセットに対して平均$F_1$スコア0.96のクロスバリデーションテストを行い、意図的に修正されたテキスト入力の例に対する追加結果により、提案したシステム設計の適用性と、開発されたNERソリューションの堅牢性を確認した。
関連論文リスト
- Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。
リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。
我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Large Language Models for Judicial Entity Extraction: A Comparative Study [0.0]
本研究では,事例法文書におけるドメイン固有エンティティの同定における大規模言語モデルの適用について検討する。
この研究は、Large Language Model Meta AI 3、Mistral、Gemmaを含む最先端のLarge Language Modelアーキテクチャの性能を評価する。
論文 参考訳(メタデータ) (2024-07-08T09:49:03Z) - Empowering Prior to Court Legal Analysis: A Transparent and Accessible Dataset for Defensive Statement Classification and Interpretation [5.646219481667151]
本稿では,裁判所の手続きに先立って,警察の面接中に作成された文の分類に適した新しいデータセットを提案する。
本稿では,直感的文と真偽を区別し,最先端のパフォーマンスを実現するための微調整DistilBERTモデルを提案する。
我々はまた、法律専門家と非専門主義者の両方がシステムと対話し、利益を得ることを可能にするXAIインターフェースも提示する。
論文 参考訳(メタデータ) (2024-05-17T11:22:27Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Classification of Contract-Amendment Relationships [0.0]
機械学習(ML)と自然言語処理(NLP)に基づく2つの文書間の修正関係を検出する手法を提案する。
このアルゴリズムは OCR (Optical Character Recognition) と NER (Named Entity Recognition) によって事前処理された2つのPDF文書を入力とし、各文書ペアの特徴を構築する。
論文 参考訳(メタデータ) (2021-06-08T07:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。