論文の概要: NyayaAnumana & INLegalLlama: The Largest Indian Legal Judgment Prediction Dataset and Specialized Language Model for Enhanced Decision Analysis
- arxiv url: http://arxiv.org/abs/2412.08385v1
- Date: Wed, 11 Dec 2024 13:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:38.571139
- Title: NyayaAnumana & INLegalLlama: The Largest Indian Legal Judgment Prediction Dataset and Specialized Language Model for Enhanced Decision Analysis
- Title(参考訳): NyayaAnumana & INLegalLlama:インド最大の法的判断予測データセットと特定言語モデルによる意思決定の強化
- Authors: Shubham Kumar Nigam, Balaramamahanthi Deepak Patnaik, Shivam Mishra, Noel Shallum, Kripabandhu Ghosh, Arnab Bhattacharya,
- Abstract要約: 本稿では,インドにおける判例の最大かつ多種多様なコーパスであるNyayaAnumanaについて紹介する。
ニヤヤ・アヌナナには最高裁判所、高等裁判所、法廷、地方裁判所、日刊令など幅広い事件がある。
InLegalLlamaは,インド法体系の複雑さに合わせたドメイン固有生成型大規模言語モデル(LLM)である。
- 参考スコア(独自算出の注目度): 5.790242888372048
- License:
- Abstract: The integration of artificial intelligence (AI) in legal judgment prediction (LJP) has the potential to transform the legal landscape, particularly in jurisdictions like India, where a significant backlog of cases burdens the legal system. This paper introduces NyayaAnumana, the largest and most diverse corpus of Indian legal cases compiled for LJP, encompassing a total of 7,02,945 preprocessed cases. NyayaAnumana, which combines the words "Nyay" (judgment) and "Anuman" (prediction or inference) respectively for most major Indian languages, includes a wide range of cases from the Supreme Court, High Courts, Tribunal Courts, District Courts, and Daily Orders and, thus, provides unparalleled diversity and coverage. Our dataset surpasses existing datasets like PredEx and ILDC, offering a comprehensive foundation for advanced AI research in the legal domain. In addition to the dataset, we present INLegalLlama, a domain-specific generative large language model (LLM) tailored to the intricacies of the Indian legal system. It is developed through a two-phase training approach over a base LLaMa model. First, Indian legal documents are injected using continual pretraining. Second, task-specific supervised finetuning is done. This method allows the model to achieve a deeper understanding of legal contexts. Our experiments demonstrate that incorporating diverse court data significantly boosts model accuracy, achieving approximately 90% F1-score in prediction tasks. INLegalLlama not only improves prediction accuracy but also offers comprehensible explanations, addressing the need for explainability in AI-assisted legal decisions.
- Abstract(参考訳): 人工知能(AI)の法的な判断予測(LJP)への統合は、特に事件のかなりの記録が法体系を負担するインドのような司法管轄区域において、法的な景観を変革する可能性がある。
本報告では, 総計7,02,945件を対象とし, LJP のためにコンパイルされたインドにおける訴訟の最大かつ最も多様なコーパスである NyayaAnumana について紹介する。
ニヤヤ・アヌナナ(Nyaya Anumana)は、多くの主要なインドの言語で「ニャイ(Nyay)」と「アヌマン(Anuman)」という単語を組み合わせており、最高裁判所、高等裁判所、裁判所、地方裁判所、日刊令から幅広い事件が報告されている。
私たちのデータセットはPredExやILDCといった既存のデータセットを超えており、法律領域における高度なAI研究の包括的な基盤を提供します。
InLegalLlamaは,インド法体系の複雑さに合わせたドメイン固有生成型大規模言語モデル(LLM)である。
ベースとなるLLaMaモデルに対する2相トレーニングアプローチによって開発されている。
第一に、インドの法律文書は継続事前訓練を用いて注入される。
次に、タスク固有の教師付き微調整を行う。
この方法では、モデルが法的文脈をより深く理解することができる。
実験により,多種多様な裁判所データを組み込むことでモデルの精度が著しく向上し,予測タスクにおいて約90%のF1スコアが達成された。
INLegalLlamaは予測精度を向上するだけでなく、理解しやすい説明を提供する。
関連論文リスト
- LawLLM: Law Large Language Model for the US Legal System [43.13850456765944]
我々は,米国法域に特化して設計されたマルチタスクモデルであるLawLLM(Law Large Language Model)を紹介する。
類似症例検索(SCR)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)においてLawLLMが優れている
そこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:51:30Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Legal Judgment Reimagined: PredEx and the Rise of Intelligent AI Interpretation in Indian Courts [6.339932924789635]
textbfPrediction with textbfExplanation (textttPredEx)は、インドの文脈における法的判断予測と説明のための、専門家による最大のデータセットである。
このコーパスは、法的分析におけるAIモデルのトレーニングと評価を大幅に強化する。
論文 参考訳(メタデータ) (2024-06-06T14:57:48Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - SLJP: Semantic Extraction based Legal Judgment Prediction [0.0]
LJP(Lawal Judgment Prediction)は、像、刑期、刑期などの法的要素を推奨する司法支援システムである。
既存のインドのモデルのほとんどは、決定に影響を及ぼす事実記述(FD)に埋め込まれた意味論に十分に集中していなかった。
提案した意味抽出に基づく LJP (SLJP) モデルは, 複雑な非構造化の判例文書理解のための事前学習型変換器の利点を提供する。
論文 参考訳(メタデータ) (2023-12-13T08:50:02Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Pre-trained Language Models for the Legal Domain: A Case Study on Indian
Law [7.366081387295463]
私たちは、インドの法律データに基づいて、人気のある2つの法的PLM(LegalBERTとCaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。
我々は,新たなドメイン(インド文)の性能向上だけでなく,原ドメイン(ヨーロッパ文,イギリス文)の性能向上にも留意する。
論文 参考訳(メタデータ) (2022-09-13T15:01:11Z) - Predicting Indian Supreme Court Judgments, Decisions, Or Appeals [0.403831199243454]
新たに開発したML対応法定予測モデルとその運用プロトタイプであるeLegPredictを紹介した。
eLegPredictは3072件の最高裁判所事件で訓練されテストされ、精度は76%に達した(F1スコア)。
eLegPredictはエンドユーザを支援するメカニズムを備えており、新しいケース記述を持つドキュメントが指定されたディレクトリにドロップされると、システムはすぐにコンテンツを読み込んで予測を生成する。
論文 参考訳(メタデータ) (2021-09-28T18:28:43Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。