論文の概要: NyayaAnumana & INLegalLlama: The Largest Indian Legal Judgment Prediction Dataset and Specialized Language Model for Enhanced Decision Analysis
- arxiv url: http://arxiv.org/abs/2412.08385v1
- Date: Wed, 11 Dec 2024 13:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 23:20:26.692603
- Title: NyayaAnumana & INLegalLlama: The Largest Indian Legal Judgment Prediction Dataset and Specialized Language Model for Enhanced Decision Analysis
- Title(参考訳): NyayaAnumana & INLegalLlama:インド最大の法的判断予測データセットと特定言語モデルによる意思決定の強化
- Authors: Shubham Kumar Nigam, Balaramamahanthi Deepak Patnaik, Shivam Mishra, Noel Shallum, Kripabandhu Ghosh, Arnab Bhattacharya,
- Abstract要約: 本稿では,インドにおける判例の最大かつ多種多様なコーパスであるNyayaAnumanaについて紹介する。
ニヤヤ・アヌナナには最高裁判所、高等裁判所、法廷、地方裁判所、日刊令など幅広い事件がある。
InLegalLlamaは,インド法体系の複雑さに合わせたドメイン固有生成型大規模言語モデル(LLM)である。
- 参考スコア(独自算出の注目度): 5.790242888372048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of artificial intelligence (AI) in legal judgment prediction (LJP) has the potential to transform the legal landscape, particularly in jurisdictions like India, where a significant backlog of cases burdens the legal system. This paper introduces NyayaAnumana, the largest and most diverse corpus of Indian legal cases compiled for LJP, encompassing a total of 7,02,945 preprocessed cases. NyayaAnumana, which combines the words "Nyay" (judgment) and "Anuman" (prediction or inference) respectively for most major Indian languages, includes a wide range of cases from the Supreme Court, High Courts, Tribunal Courts, District Courts, and Daily Orders and, thus, provides unparalleled diversity and coverage. Our dataset surpasses existing datasets like PredEx and ILDC, offering a comprehensive foundation for advanced AI research in the legal domain. In addition to the dataset, we present INLegalLlama, a domain-specific generative large language model (LLM) tailored to the intricacies of the Indian legal system. It is developed through a two-phase training approach over a base LLaMa model. First, Indian legal documents are injected using continual pretraining. Second, task-specific supervised finetuning is done. This method allows the model to achieve a deeper understanding of legal contexts. Our experiments demonstrate that incorporating diverse court data significantly boosts model accuracy, achieving approximately 90% F1-score in prediction tasks. INLegalLlama not only improves prediction accuracy but also offers comprehensible explanations, addressing the need for explainability in AI-assisted legal decisions.
- Abstract(参考訳): 人工知能(AI)の法的な判断予測(LJP)への統合は、特に事件のかなりの記録が法体系を負担するインドのような司法管轄区域において、法的な景観を変革する可能性がある。
本報告では, 総計7,02,945件を対象とし, LJP のためにコンパイルされたインドにおける訴訟の最大かつ最も多様なコーパスである NyayaAnumana について紹介する。
ニヤヤ・アヌナナ(Nyaya Anumana)は、多くの主要なインドの言語で「ニャイ(Nyay)」と「アヌマン(Anuman)」という単語を組み合わせており、最高裁判所、高等裁判所、裁判所、地方裁判所、日刊令から幅広い事件が報告されている。
私たちのデータセットはPredExやILDCといった既存のデータセットを超えており、法律領域における高度なAI研究の包括的な基盤を提供します。
InLegalLlamaは,インド法体系の複雑さに合わせたドメイン固有生成型大規模言語モデル(LLM)である。
ベースとなるLLaMaモデルに対する2相トレーニングアプローチによって開発されている。
第一に、インドの法律文書は継続事前訓練を用いて注入される。
次に、タスク固有の教師付き微調整を行う。
この方法では、モデルが法的文脈をより深く理解することができる。
実験により,多種多様な裁判所データを組み込むことでモデルの精度が著しく向上し,予測タスクにおいて約90%のF1スコアが達成された。
INLegalLlamaは予測精度を向上するだけでなく、理解しやすい説明を提供する。
関連論文リスト
- TathyaNyaya and FactLegalLlama: Advancing Factual Judgment Prediction and Explanation in the Indian Legal Context [5.790242888372048]
TathyaNyayaは、Factベースの判断予測と説明(FJPE)のための最大の注釈付きデータセットで、インドの法的文脈に合わせている。
本稿では,FJPEタスクの高品質な説明を生成するために最適化されたLLaMa-3-8B大言語モデル(LLM)の命令調整版であるFactLegalLlamaを提案する。
論文 参考訳(メタデータ) (2025-04-07T05:27:32Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - PILOT: Legal Case Outcome Prediction with Case Law [43.680862577060765]
判例法を用いて判例結果の予測を行う際の2つのユニークな課題を同定する。
第一に、意思決定において裁判官の基本的な証拠となる関連する前例を特定することが重要である。
第二に、初期の事例は異なる法的文脈に従う可能性があるため、時間とともに法原則の進化を考慮する必要がある。
論文 参考訳(メタデータ) (2024-01-28T21:18:05Z) - SLJP: Semantic Extraction based Legal Judgment Prediction [0.0]
LJP(Lawal Judgment Prediction)は、像、刑期、刑期などの法的要素を推奨する司法支援システムである。
既存のインドのモデルのほとんどは、決定に影響を及ぼす事実記述(FD)に埋め込まれた意味論に十分に集中していなかった。
提案した意味抽出に基づく LJP (SLJP) モデルは, 複雑な非構造化の判例文書理解のための事前学習型変換器の利点を提供する。
論文 参考訳(メタデータ) (2023-12-13T08:50:02Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Exploiting Contrastive Learning and Numerical Evidence for Confusing
Legal Judgment Prediction [46.71918729837462]
訴訟の事実記述文を考慮し、法的判断予測は、事件の告訴、法律記事、刑期を予測することを目的としている。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できなかった。
本稿では,モコに基づく教師付きコントラスト学習を提案する。
さらに,事前学習した数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
論文 参考訳(メタデータ) (2022-11-15T15:53:56Z) - Pre-trained Language Models for the Legal Domain: A Case Study on Indian
Law [7.366081387295463]
私たちは、インドの法律データに基づいて、人気のある2つの法的PLM(LegalBERTとCaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。
我々は,新たなドメイン(インド文)の性能向上だけでなく,原ドメイン(ヨーロッパ文,イギリス文)の性能向上にも留意する。
論文 参考訳(メタデータ) (2022-09-13T15:01:11Z) - Predicting Indian Supreme Court Judgments, Decisions, Or Appeals [0.403831199243454]
新たに開発したML対応法定予測モデルとその運用プロトタイプであるeLegPredictを紹介した。
eLegPredictは3072件の最高裁判所事件で訓練されテストされ、精度は76%に達した(F1スコア)。
eLegPredictはエンドユーザを支援するメカニズムを備えており、新しいケース記述を持つドキュメントが指定されたディレクトリにドロップされると、システムはすぐにコンテンツを読み込んで予測を生成する。
論文 参考訳(メタデータ) (2021-09-28T18:28:43Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。