論文の概要: MILDSum: A Novel Benchmark Dataset for Multilingual Summarization of
Indian Legal Case Judgments
- arxiv url: http://arxiv.org/abs/2310.18600v1
- Date: Sat, 28 Oct 2023 05:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:43:50.892522
- Title: MILDSum: A Novel Benchmark Dataset for Multilingual Summarization of
Indian Legal Case Judgments
- Title(参考訳): MILDSum: インドにおける訴訟判決の多言語要約のためのベンチマークデータセット
- Authors: Debtanu Datta, Shubham Soni, Rajdeep Mukherjee, Saptarshi Ghosh
- Abstract要約: 公正な司法アクセスを確保するために、インドの言語で法律文書を要約することが不可欠である。
本研究は,ヒンディー語における英語法典の言語間要約に向けた先駆的な取り組みを示す。
我々は、英語とヒンディー語の両方の要約とともに、英語の著名なインド人裁判所から3,122件の判例判決からなる、最初の高品質な法定コーパスを構築した。
- 参考スコア(独自算出の注目度): 6.522489660886997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic summarization of legal case judgments is a practically important
problem that has attracted substantial research efforts in many countries. In
the context of the Indian judiciary, there is an additional complexity --
Indian legal case judgments are mostly written in complex English, but a
significant portion of India's population lacks command of the English
language. Hence, it is crucial to summarize the legal documents in Indian
languages to ensure equitable access to justice. While prior research primarily
focuses on summarizing legal case judgments in their source languages, this
study presents a pioneering effort toward cross-lingual summarization of
English legal documents into Hindi, the most frequently spoken Indian language.
We construct the first high-quality legal corpus comprising of 3,122 case
judgments from prominent Indian courts in English, along with their summaries
in both English and Hindi, drafted by legal practitioners. We benchmark the
performance of several diverse summarization approaches on our corpus and
demonstrate the need for further research in cross-lingual summarization in the
legal domain.
- Abstract(参考訳): 判例判断の自動要約は事実上重要な問題であり、多くの国でかなりの研究努力が寄せられている。
インド司法裁判所の文脈では、さらに複雑さが増し、インドの判例判断は主に複雑な英語で書かれているが、インドの人口の大部分は英語の命令を欠いている。
したがって、公正な司法アクセスを確保するために、インドの言語で法的文書を要約することが不可欠である。
先行研究は、主に原文言語における判例判断の要約に焦点を当てているが、本研究は、英語の法文書をヒンディー語に言語横断的に要約する先駆的な試みである。
我々は、英語の著名なインド人裁判所から3,122件の判例判決と、法律実務者が起草した英語とヒンディー語の両方の要約からなる、最初の高品質な法定コーパスを構築した。
コーパスにおける多種多様な要約手法の性能をベンチマークし、法域における言語間要約のさらなる研究の必要性を実証する。
関連論文リスト
- DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - VLSP 2023 -- LTER: A Summary of the Challenge on Legal Textual
Entailment Recognition [7.030684932312313]
本稿では,ベトナム語に関する法律分野における最初の基礎研究について紹介する。
我々は、対処すべき課題を提起する法的領域において重要な言語的側面について論じる。
論文 参考訳(メタデータ) (2024-03-06T03:42:06Z) - LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK
Case Law Dataset [0.0]
本研究は, 英国裁判所判決の大規模コーパスから, 判例, 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、
我々は、ケンブリッジ法コーパス356,011英国の裁判所決定を用いて、大きな言語モデルは、キーワードに対して重み付けされたF1スコアが0.94対0.78であると判断する。
我々は,3,102件の要約判断事例を同定し抽出し,その分布を時間的範囲の様々な英国裁判所にマップできるようにする。
論文 参考訳(メタデータ) (2024-03-04T10:13:30Z) - Multi-Defendant Legal Judgment Prediction via Hierarchical Reasoning [49.23103067844278]
マルチディペンダント・ケースの各被告に対する判断結果を自動予測することを目的としたマルチディペンダント・LJPの課題を提案する。
マルチディペンダント LJP の課題は,(1) 各被告の識別不能な判断結果, (2) 訓練と評価のための実世界のデータセットの欠如である。
論文 参考訳(メタデータ) (2023-12-10T04:46:30Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - Improving Access to Justice for the Indian Population: A Benchmark for
Evaluating Translation of Legal Text to Indian Languages [2.8300485344102477]
インド司法裁判所の法的文書の多くは、歴史的理由から複雑な英語で書かれている。
インドの人口の約10%が英語を読むのに慣れている。
我々は、英語と9つのインド語で整列したテキスト単位を含む、最初の高品質な法定並列コーパスを構築した。
論文 参考訳(メタデータ) (2023-10-15T07:49:56Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Exploiting Contrastive Learning and Numerical Evidence for Confusing
Legal Judgment Prediction [46.71918729837462]
訴訟の事実記述文を考慮し、法的判断予測は、事件の告訴、法律記事、刑期を予測することを目的としている。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できなかった。
本稿では,モコに基づく教師付きコントラスト学習を提案する。
さらに,事前学習した数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
論文 参考訳(メタデータ) (2022-11-15T15:53:56Z) - Pre-trained Language Models for the Legal Domain: A Case Study on Indian
Law [7.366081387295463]
私たちは、インドの法律データに基づいて、人気のある2つの法的PLM(LegalBERTとCaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。
我々は,新たなドメイン(インド文)の性能向上だけでなく,原ドメイン(ヨーロッパ文,イギリス文)の性能向上にも留意する。
論文 参考訳(メタデータ) (2022-09-13T15:01:11Z) - A Multi-Task Benchmark for Korean Legal Language Understanding and
Judgement Prediction [19.89425856249463]
韓国の法律AIデータセットであるLBox Openの大規模なベンチマークについて紹介する。
この法定コーパスは150万の韓国の先例(2億6400万トークン)で構成され、そのうち過去4年間に63万の判決が下された。
2つの分類課題は事例名(10k)と個々の事例の事実記述による法令(3k)の予測である。
LJP タスクは,(1) 1k 件の犯罪事例からなり,そのモデルに詳細な量の予測,労働への投獄,及び与えられた事実に対する労働範囲のない投獄が求められる。
論文 参考訳(メタデータ) (2022-06-10T16:51:45Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。