論文の概要: LawSum: A weakly supervised approach for Indian Legal Document
Summarization
- arxiv url: http://arxiv.org/abs/2110.01188v2
- Date: Tue, 5 Oct 2021 16:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 10:50:29.444680
- Title: LawSum: A weakly supervised approach for Indian Legal Document
Summarization
- Title(参考訳): ローサム:インドの法律文書要約に関する弱い監督的アプローチ
- Authors: Vedant Parikh, Vidit Mathur, Parth Metha, Namita Mittal, Prasenjit
Majumder
- Abstract要約: インド最高裁判所が提供した1万以上の判決からなる新たなデータセットを提案する。
提案したデータセットは、一般的な法的略語を正規化することによって前処理される。
私たちはまた、日付、原告の名前、被告人、およびそれらを代表する人々といったいくつかの属性で、各判断に注釈を付けます。
- 参考スコア(独自算出の注目度): 1.7284359928761968
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unlike the courts in western countries, public records of Indian judiciary
are completely unstructured and noisy. No large scale publicly available
annotated datasets of Indian legal documents exist till date. This limits the
scope for legal analytics research. In this work, we propose a new dataset
consisting of over 10,000 judgements delivered by the supreme court of India
and their corresponding hand written summaries. The proposed dataset is
pre-processed by normalising common legal abbreviations, handling spelling
variations in named entities, handling bad punctuations and accurate sentence
tokenization. Each sentence is tagged with their rhetorical roles. We also
annotate each judgement with several attributes like date, names of the
plaintiffs, defendants and the people representing them, judges who delivered
the judgement, acts/statutes that are cited and the most common citations used
to refer the judgement. Further, we propose an automatic labelling technique
for identifying sentences which have summary worthy information. We demonstrate
that this auto labeled data can be used effectively to train a weakly
supervised sentence extractor with high accuracy. Some possible applications of
this dataset besides legal document summarization can be in retrieval, citation
analysis and prediction of decisions by a particular judge.
- Abstract(参考訳): 西側諸国の裁判所とは異なり、インド司法の公的な記録は完全に非構造的でうるさい。
インドの法律文書の注釈付きデータセットは、現在まで存在しない。
これは法的分析研究の範囲を制限する。
本研究では,インド最高裁判所とそれに対応する手書き要約による1万件以上の判決からなる新たなデータセットを提案する。
提案されたデータセットは、一般的な法的略語を標準化し、名前付きエンティティの綴りのバリエーションを扱い、悪い句読点を扱い、正確な文のトークン化を行う。
各文は修辞的役割でタグ付けされる。
また、判決には日付、原告の名前、被告人、その代表者、判決を提出した裁判官、引用される行為・法令、そして判決を引用する最も一般的な引用など、いくつかの属性を注釈付けします。
さらに,要約に値する情報を持つ文を識別する自動ラベリング手法を提案する。
この自動ラベル付きデータは、弱教師付き文抽出器を高精度に訓練するのに有効であることを示す。
このデータセットの法的な文書要約以外のいくつかの応用は、特定の裁判官による決定の検索、引用分析、予測に応用できる。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。
リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。
我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - Low-Resource Court Judgment Summarization for Common Law Systems [32.13166048504629]
CLSumは,多審理法裁判所判決文書を要約する最初のデータセットである。
これは、データ拡張、要約生成、評価において、大規模言語モデル(LLM)を採用する最初の裁判所判決要約作業である。
論文 参考訳(メタデータ) (2024-03-07T12:47:42Z) - SLJP: Semantic Extraction based Legal Judgment Prediction [0.0]
LJP(Lawal Judgment Prediction)は、像、刑期、刑期などの法的要素を推奨する司法支援システムである。
既存のインドのモデルのほとんどは、決定に影響を及ぼす事実記述(FD)に埋め込まれた意味論に十分に集中していなかった。
提案した意味抽出に基づく LJP (SLJP) モデルは, 複雑な非構造化の判例文書理解のための事前学習型変換器の利点を提供する。
論文 参考訳(メタデータ) (2023-12-13T08:50:02Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - CiteCaseLAW: Citation Worthiness Detection in Caselaw for Legal
Assistive Writing [44.75251805925605]
本稿では,Caselaw Access Project (CAP) の法域における引用・安心度検出のための178万文のラベル付きデータセットを紹介する。
本論文では,様々な深層学習モデルの性能について検討した。
ドメイン固有の事前学習モデルは、他のモデルよりも優れている傾向があり、88%のF1スコアが引用-可視性検出タスクである。
論文 参考訳(メタデータ) (2023-05-03T04:20:56Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Exploiting Contrastive Learning and Numerical Evidence for Confusing
Legal Judgment Prediction [46.71918729837462]
訴訟の事実記述文を考慮し、法的判断予測は、事件の告訴、法律記事、刑期を予測することを目的としている。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できなかった。
本稿では,モコに基づく教師付きコントラスト学習を提案する。
さらに,事前学習した数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
論文 参考訳(メタデータ) (2022-11-15T15:53:56Z) - Fine-grained Intent Classification in the Legal Domain [2.088409822555567]
我々は、殺人、土地紛争、強盗、破産のいずれかの事例分類に属する93の法的文書のデータセットを紹介する。
このようなフレーズごとに微妙な意図を注釈し、読者のケースをより深く理解できるようにします。
目的語句の自動抽出における変換器モデルの性能解析を行う。
論文 参考訳(メタデータ) (2022-05-06T23:57:17Z) - JUSTICE: A Benchmark Dataset for Supreme Court's Judgment Prediction [0.0]
我々は、自然言語処理(NLP)研究やその他のデータ駆動アプリケーションで容易に利用できるように、SCOTUS裁判所の高品質なデータセットを作成することを目指している。
先進的なNLPアルゴリズムを用いて以前の訴訟を分析することにより、訓練されたモデルは裁判所の判断を予測し、分類することができる。
論文 参考訳(メタデータ) (2021-12-06T23:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。