論文の概要: ILSIC: Corpora for Identifying Indian Legal Statutes from Queries by Laypeople
- arxiv url: http://arxiv.org/abs/2602.00881v1
- Date: Sat, 31 Jan 2026 20:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.447408
- Title: ILSIC: Corpora for Identifying Indian Legal Statutes from Queries by Laypeople
- Title(参考訳): ILSIC: クエリからインド法規を識別するコーパス
- Authors: Shounak Paul, Raghav Dogra, Pawan Goyal, Saptarshi Ghosh,
- Abstract要約: ある状況に対する法定法定識別(LSI)は、法定NLPにおける最も基本的なタスクの1つである。
In this work, we create ILSIC, a corpus of lay People query cover 500+statutes from Indian law。
- 参考スコア(独自算出の注目度): 7.998373645118032
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Legal Statute Identification (LSI) for a given situation is one of the most fundamental tasks in Legal NLP. This task has traditionally been modeled using facts from court judgments as input queries, due to their abundance. However, in practical settings, the input queries are likely to be informal and asked by laypersons, or non-professionals. While a few laypeople LSI datasets exist, there has been little research to explore the differences between court and laypeople data for LSI. In this work, we create ILSIC, a corpus of laypeople queries covering 500+ statutes from Indian law. Additionally, the corpus also contains court case judgements to enable researchers to effectively compare between court and laypeople data for LSI. We conducted extensive experiments on our corpus, including benchmarking over the laypeople dataset using zero and few-shot inference, retrieval-augmented generation and supervised fine-tuning. We observe that models trained purely on court judgements are ineffective during test on laypeople queries, while transfer learning from court to laypeople data can be beneficial in certain scenarios. We also conducted fine-grained analyses of our results in terms of categories of queries and frequency of statutes.
- Abstract(参考訳): ある状況に対する法定法則同定(LSI)は、法定NLPにおける最も基本的な課題の1つである。
このタスクは伝統的に、裁判所の判断の事実を入力クエリとして使用してきた。
しかし、実際の設定では、入力クエリは非公式で、素人や非専門家によって要求される可能性が高い。
LSIデータセットはいくつか存在するが、LSIの裁判所と一般人のデータの違いを調査する研究はほとんどない。
In this work, we create ILSIC, acorpus of lay People query cover 500+statutes from Indian law。
さらに、このコーパスには裁判所判例が含まれており、研究者はLSIの裁判所と一般人のデータを効果的に比較することができる。
我々は、ゼロと数ショットの推論、検索強化生成、教師付き微調整を用いたレイパーズデータセットのベンチマークなど、コーパスに関する広範な実験を行った。
裁判所の判断に基づいて純粋に訓練されたモデルが、裁判所から一般人へのデータ移行学習は、特定のシナリオにおいて有益である一方、非効率であることが観察された。
また,クエリのカテゴリや規則の頻度の観点から,詳細な分析を行った。
関連論文リスト
- Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning [0.5308136763388956]
私たちは、インドの公的な司法試験を透明な代理として利用しています。
私たちのベンチマークは、国家試験と国家試験の客観的な画面をまとめたものです。
我々はまた、最高裁判所のAdvocate-on-Record試験による長文の回答について、弁護士に格付けされた、ペアの書面による研究も含んでいる。
論文 参考訳(メタデータ) (2025-10-19T10:04:29Z) - LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation [9.894351313663874]
LCR(Lawal Case Retrieval)は、法律専門家の基本的な課題である。
LCRに関する既存の研究は2つの大きな制限に直面している。
まず,比較的小規模な検索コーパスを用いて評価を行った。
第二に、埋め込み方式や語彙マッチング方式への依存は、しばしば限定的な表現と法的に無関係な一致をもたらす。
論文 参考訳(メタデータ) (2025-05-28T09:02:41Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - Low-Resource Court Judgment Summarization for Common Law Systems [32.13166048504629]
CLSumは,多審理法裁判所判決文書を要約する最初のデータセットである。
これは、データ拡張、要約生成、評価において、大規模言語モデル(LLM)を採用する最初の裁判所判決要約作業である。
論文 参考訳(メタデータ) (2024-03-07T12:47:42Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - JUSTICE: A Benchmark Dataset for Supreme Court's Judgment Prediction [0.0]
我々は、自然言語処理(NLP)研究やその他のデータ駆動アプリケーションで容易に利用できるように、SCOTUS裁判所の高品質なデータセットを作成することを目指している。
先進的なNLPアルゴリズムを用いて以前の訴訟を分析することにより、訓練されたモデルは裁判所の判断を予測し、分類することができる。
論文 参考訳(メタデータ) (2021-12-06T23:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。