論文の概要: Pre-trained Language Models for the Legal Domain: A Case Study on Indian
Law
- arxiv url: http://arxiv.org/abs/2209.06049v5
- Date: Mon, 15 May 2023 10:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 11:16:32.219695
- Title: Pre-trained Language Models for the Legal Domain: A Case Study on Indian
Law
- Title(参考訳): 法律領域における事前学習型言語モデル:インド法を事例として
- Authors: Shounak Paul, Arpan Mandal, Pawan Goyal and Saptarshi Ghosh
- Abstract要約: 私たちは、インドの法律データに基づいて、人気のある2つの法的PLM(LegalBERTとCaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。
我々は,新たなドメイン(インド文)の性能向上だけでなく,原ドメイン(ヨーロッパ文,イギリス文)の性能向上にも留意する。
- 参考スコア(独自算出の注目度): 7.366081387295463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP in the legal domain has seen increasing success with the emergence of
Transformer-based Pre-trained Language Models (PLMs) pre-trained on legal text.
PLMs trained over European and US legal text are available publicly; however,
legal text from other domains (countries), such as India, have a lot of
distinguishing characteristics. With the rapidly increasing volume of Legal NLP
applications in various countries, it has become necessary to pre-train such
LMs over legal text of other countries as well. In this work, we attempt to
investigate pre-training in the Indian legal domain. We re-train (continue
pre-training) two popular legal PLMs, LegalBERT and CaseLawBERT, on Indian
legal data, as well as train a model from scratch with a vocabulary based on
Indian legal text. We apply these PLMs over three benchmark legal NLP tasks --
Legal Statute Identification from facts, Semantic Segmentation of Court
Judgment Documents, and Court Appeal Judgment Prediction -- over both Indian
and non-Indian (EU, UK) datasets. We observe that our approach not only
enhances performance on the new domain (Indian texts) but also over the
original domain (European and UK texts). We also conduct explainability
experiments for a qualitative comparison of all these different PLMs.
- Abstract(参考訳): 法律分野におけるNLPは、トランスフォーマーベースの事前訓練言語モデル(PLM)が法的テキストで事前訓練されるようになり、成功している。
ヨーロッパとアメリカの法律上のテキストで訓練されたplmは一般に公開されているが、インドなど他のドメイン(国)からの法的文書には多くの特徴がある。
各国における法律NLP適用の急増に伴い、各国の法的文書に照らして、これらのLMを事前訓練する必要性が高まっている。
本研究では,インド法域における事前訓練について検討する。
私たちは、インドの法律データに基づいて、人気のある2つの法的 PLM(LegalBERT と CaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。
我々は、これらのPLMを3つの法的NLPタスク – 事実からの違法な特定、裁判所判決文書のセマンティックセグメンテーション、および控訴判決予測 – に対して、インドと非インド(EU、英国)両方のデータセットに適用する。
提案手法は,新たなドメイン(インド文)の性能向上だけでなく,オリジナルドメイン(ヨーロッパ文,イギリス文)の性能向上にも寄与する。
また,これらの異なるPLMの質的比較のための説明可能性実験を行った。
関連論文リスト
- IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoning [16.12863746776168]
世界中の法制度は、事例や文書の指数的な増加と共に浸水している。
法律文書を自動的に処理し理解するためのNLPおよびML技術を開発する必要がある。
本稿では, IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoningを提案する。
論文 参考訳(メタデータ) (2024-07-07T14:55:04Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Are Models Trained on Indian Legal Data Fair? [20.162205920441895]
法律分野におけるインドの観点からの公正性に関する最初の調査を提示する。
本研究では、保釈予測タスクのために訓練された決定木モデルにおいて、ヒンドゥー教とムスリムに関連する入力特徴間の全体的な公平性格差が0.237であることを示す。
論文 参考訳(メタデータ) (2023-03-13T16:20:33Z) - Indian Legal NLP Benchmarks : A Survey [0.0]
インド法典テキストのために、別々に自然言語処理ベンチマークを作成する必要がある。
これは、インドの法律テキストに対する自然言語処理の応用の革新を刺激する。
論文 参考訳(メタデータ) (2021-07-13T13:10:10Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset [2.0924876102146714]
53,000以上の選択質問からなる新しいデータセットを提示し、引用されたケースの保持状況を特定する。
タスクがプリトレーニングコーパスと十分な類似性を示すと、ドメイン事前トレーニングが保証される可能性がある。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
論文 参考訳(メタデータ) (2021-04-18T00:57:16Z) - LEGAL-BERT: The Muppets straight out of Law School [52.53830441117363]
我々は、BERTモデルを下流の法的タスクに適用するためのアプローチを検討し、複数のデータセットで評価する。
以上の結果から,事前学習と微調整のガイドラインが盲目的に従う場合が多いが,法域において必ずしも適切ではないことが示唆された。
LEGAL-BERTは、法的なNLP研究、計算法、法的な技術応用を支援するためのBERTモデルのファミリーである。
論文 参考訳(メタデータ) (2020-10-06T09:06:07Z) - How Does NLP Benefit Legal System: A Summary of Legal Artificial
Intelligence [81.04070052740596]
法律人工知能(Legal AI)は、人工知能、特に自然言語処理の技術を適用して、法的領域におけるタスクに役立てることに焦点を当てている。
本稿では,LegalAIにおける研究の歴史,現状,今後の方向性について紹介する。
論文 参考訳(メタデータ) (2020-04-25T14:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。