論文の概要: Datasets for Portuguese Legal Semantic Textual Similarity: Comparing
weak supervision and an annotation process approaches
- arxiv url: http://arxiv.org/abs/2306.00007v1
- Date: Mon, 29 May 2023 18:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 20:59:10.495649
- Title: Datasets for Portuguese Legal Semantic Textual Similarity: Comparing
weak supervision and an annotation process approaches
- Title(参考訳): ポルトガル語の法的意味論的類似性のためのデータセット:弱い監督と注釈プロセスアプローチの比較
- Authors: Daniel da Silva Junior, Paulo Roberto dos S. Corval, Aline Paes and
Daniel de Oliveira
- Abstract要約: ブラジルの司法評議会は、デジタル化の文書化とプロセスに関する正式なガイダンスを決議469/2022に制定した。
この記事では、法的ドメインからの4つのデータセットをコントリビュートする。2つはドキュメントとメタデータを持つが、ラベル付けされていない。
基礎的真理ラベルの分析は、ドメインの専門家にとってもドメインテキストのセマンティック分析が困難であることを強調している。
- 参考スコア(独自算出の注目度): 1.9244230111838758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Brazilian judiciary has a large workload, resulting in a long time to
finish legal proceedings. Brazilian National Council of Justice has established
in Resolution 469/2022 formal guidance for document and process digitalization
opening up the possibility of using automatic techniques to help with everyday
tasks in the legal field, particularly in a large number of texts yielded on
the routine of law procedures. Notably, Artificial Intelligence (AI) techniques
allow for processing and extracting useful information from textual data,
potentially speeding up the process. However, datasets from the legal domain
required by several AI techniques are scarce and difficult to obtain as they
need labels from experts. To address this challenge, this article contributes
with four datasets from the legal domain, two with documents and metadata but
unlabeled, and another two labeled with a heuristic aiming at its use in
textual semantic similarity tasks. Also, to evaluate the effectiveness of the
proposed heuristic label process, this article presents a small ground truth
dataset generated from domain expert annotations. The analysis of ground truth
labels highlights that semantic analysis of domain text can be challenging even
for domain experts. Also, the comparison between ground truth and heuristic
labels shows that heuristic labels are useful.
- Abstract(参考訳): ブラジル司法府は大きな作業量を抱えており、長い時間をかけて法的手続きを終えている。
ブラジル司法評議会は、文書とプロセスのデジタル化のための正式なガイダンス469/2022を決議し、法分野における日々の業務、特に法手続きのルーチンで得られた大量の文書において、自動的な技術を使うことの可能性を開放した。
特に人工知能(ai)技術は、テキストデータから有用な情報を処理し抽出することを可能にし、プロセスを高速化する可能性がある。
しかし、いくつかのAI技術で必要とされる法的領域からのデータセットは、専門家のラベルを必要とするため、入手が困難である。
この課題に対処するため、本論文では、法領域からの4つのデータセット、2つは文書とメタデータで、ラベル付きだがラベル付きで、もう1つはテキストの意味的類似性タスクでの使用を目的としたヒューリスティックでラベル付けされている。
また、提案したヒューリスティックラベルプロセスの有効性を評価するため、ドメインエキスパートアノテーションから生成された小さな真実データセットを提示する。
基礎的真理ラベルの分析は、ドメインの専門家にとってもドメインテキストのセマンティック分析が困難であることを強調している。
また,基礎的真理とヒューリスティックなラベルの比較により,ヒューリスティックなラベルが有用であることを示す。
関連論文リスト
- Judgement Citation Retrieval using Contextual Similarity [0.0]
本稿では,自然言語処理(NLP)と機械学習技術を組み合わせて,訴訟記述の組織化と活用を促進する手法を提案する。
提案手法は,教師なしクラスタリングと教師付き引用検索の2つの主要な目的に対処する。
我々の手法は90.9%という驚くべき精度を達成した。
論文 参考訳(メタデータ) (2024-05-28T04:22:28Z) - Empowering Prior to Court Legal Analysis: A Transparent and Accessible Dataset for Defensive Statement Classification and Interpretation [5.646219481667151]
本稿では,裁判所の手続きに先立って,警察の面接中に作成された文の分類に適した新しいデータセットを提案する。
本稿では,直感的文と真偽を区別し,最先端のパフォーマンスを実現するための微調整DistilBERTモデルを提案する。
我々はまた、法律専門家と非専門主義者の両方がシステムと対話し、利益を得ることを可能にするXAIインターフェースも提示する。
論文 参考訳(メタデータ) (2024-05-17T11:22:27Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - LEEC: A Legal Element Extraction Dataset with an Extensive
Domain-Specific Label System [0.4764641468273235]
法定要素外配列データセット (LEEC) は、中国の法体系において最も広く、かつ、ドメイン固有の法定要素抽出データセットである。
本稿では,15,831の司法文書と159のラベルからなる,より包括的で大規模な刑事要素抽出データセットを紹介する。
論文 参考訳(メタデータ) (2023-10-02T15:16:31Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - FlairNLP at SemEval-2023 Task 6b: Extraction of Legal Named Entities
from Legal Texts using Contextual String Embeddings [0.0]
我々は、知識抽出技術、特に訴訟判決における法的実体の命名された実体抽出技術を用いている。
法文のキュレートされたデータセットに基づいて学習したモデルを用いて,シーケンスラベリングの領域におけるアートアーキテクチャのいくつかの状態を評価する。
Flair EmbeddingsでトレーニングされたBi-LSTMモデルは、最良の結果を得る。
論文 参考訳(メタデータ) (2023-06-03T19:38:04Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Effective Approach to Develop a Sentiment Annotator For Legal Domain in
a Low Resource Setting [0.41783829807634776]
法的意見文で利用できる法的意見の感情を分析することは、法的判断の予測、矛盾する言明の識別、政党に基づく感情分析などのいくつかのユースケースを促進することができる。
ドメイン固有のラベル付きデータやドメインの専門知識の欠如といったリソース制約のために、法的ドメイン固有の感情アノテータを開発するというタスクは難しい。
本研究では,データの手動アノテーションの必要性を最小限に抑えつつ,法的ドメインに対する感情アノテータの開発に使用できる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-31T17:12:32Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。