論文の概要: Structured Definitions and Segmentations for Legal Reasoning in LLMs: A Study on Indian Legal Data
- arxiv url: http://arxiv.org/abs/2511.20669v1
- Date: Fri, 14 Nov 2025 13:24:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.321908
- Title: Structured Definitions and Segmentations for Legal Reasoning in LLMs: A Study on Indian Legal Data
- Title(参考訳): LLMにおける規則推論のための構造的定義とセグメンテーション:インドの法律データについて
- Authors: Mann Khatri, Mirza Yusuf, Rajiv Ratn Shah, Ponnurangam Kumaraguru,
- Abstract要約: 大規模な言語モデル(LLM)は、Webからの広範なデータセットに基づいて訓練され、目覚ましい一般的な推論スキルを示す。
しかし、主にドメイン固有の事前訓練がないため、法律のような専門分野に苦しむことが多い。
従来の研究では、知識ギャップに対処するためのコンテキスト内アプローチを検証し、ドメインの完全な整合性のない新しいドメインにおけるモデル性能を高めてきた。
- 参考スコア(独自算出の注目度): 27.162165587035176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs), trained on extensive datasets from the web, exhibit remarkable general reasoning skills. Despite this, they often struggle in specialized areas like law, mainly because they lack domain-specific pretraining. The legal field presents unique challenges, as legal documents are generally long and intricate, making it hard for models to process the full text efficiently. Previous studies have examined in-context approaches to address the knowledge gap, boosting model performance in new domains without full domain alignment. In our paper, we analyze model behavior on legal tasks by conducting experiments in three areas: (i) reorganizing documents based on rhetorical roles to assess how structured information affects long context processing and model decisions, (ii) defining rhetorical roles to familiarize the model with legal terminology, and (iii) emulating the step-by-step reasoning of courts regarding rhetorical roles to enhance model reasoning. These experiments are conducted in a zero-shot setting across three Indian legal judgment prediction datasets. Our results reveal that organizing data or explaining key legal terms significantly boosts model performance, with a minimum increase of ~1.5% and a maximum improvement of 4.36% in F1 score compared to the baseline.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、Webからの広範なデータセットに基づいて訓練され、目覚ましい一般的な推論スキルを示す。
それにもかかわらず、彼らは多くの場合、ドメイン固有の事前訓練がないために、法律のような専門分野に苦しむ。
法的文書は一般的に長く複雑であり、モデルが完全なテキストを効率的に処理することが困難である。
従来の研究では、知識ギャップに対処するためのコンテキスト内アプローチを検証し、ドメインの完全な整合性のない新しいドメインにおけるモデル性能を高めてきた。
本稿では,3つの分野で実験を行うことにより,法的タスクのモデル行動を分析する。
一 構造化情報が長期の文脈処理及びモデル決定にどう影響するかを評価するための修辞的役割に基づく文書の再編成
二 法用語でモデルを熟知するための修辞的役割を定義すること。
三 モデル推論を強化するための修辞的役割に関する裁判所の段々の推論をエミュレートすること。
これらの実験は、インドの3つの法的判断予測データセットにまたがるゼロショット環境で実施される。
以上の結果から,データ編成や重要な法的条件の説明がモデル性能を著しく向上させ,F1スコアの最低値が1.5%,F1スコアが4.36%向上したことが明らかとなった。
関連論文リスト
- ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - LegalSeg: Unlocking the Structure of Indian Legal Judgments Through Rhetorical Role Classification [6.549338652948716]
7000以上の文書と140万の文で構成され、7つの修辞的な役割をラベル付けした、このタスクのための最大の注釈付きデータセットであるLegalSegを紹介します。
以上の結果から,より広義の文脈,構造的関係,逐次的な文情報を含むモデルが,文レベルの特徴にのみ依存するモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-09T10:07:05Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Topic Classification of Case Law Using a Large Language Model and a New Taxonomy for UK Law: AI Insights into Summary Judgment [0.0]
本稿では,英国における要約判断事例のトピック分類のための新しい分類法の開発と適用について述べる。
機能的なトピックやトレンドを探るために、Large Language Model Claude 3 Opusを使用します。
クロード3オプスはこのトピックを87.13%、F1スコア0.87で正しく分類した。
論文 参考訳(メタデータ) (2024-05-21T16:30:25Z) - Empowering Prior to Court Legal Analysis: A Transparent and Accessible Dataset for Defensive Statement Classification and Interpretation [5.646219481667151]
本稿では,裁判所の手続きに先立って,警察の面接中に作成された文の分類に適した新しいデータセットを提案する。
本稿では,直感的文と真偽を区別し,最先端のパフォーマンスを実現するための微調整DistilBERTモデルを提案する。
我々はまた、法律専門家と非専門主義者の両方がシステムと対話し、利益を得ることを可能にするXAIインターフェースも提示する。
論文 参考訳(メタデータ) (2024-05-17T11:22:27Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Enhancing Pre-Trained Language Models with Sentence Position Embeddings
for Rhetorical Roles Recognition in Legal Opinions [0.16385815610837165]
法的意見の規模は増え続けており、法的意見の修辞的役割を正確に予測できるモデルを開発することはますます困難になっている。
本稿では,文の位置情報に関する知識によって強化された事前学習言語モデル(PLM)を用いて,修辞的役割を自動的に予測する新しいモデルアーキテクチャを提案する。
LegalEval@SemEval2023コンペティションの注釈付きコーパスに基づいて、我々のアプローチではパラメータが少なく、計算コストが低下することを示した。
論文 参考訳(メタデータ) (2023-10-08T20:33:55Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset [2.0924876102146714]
53,000以上の選択質問からなる新しいデータセットを提示し、引用されたケースの保持状況を特定する。
タスクがプリトレーニングコーパスと十分な類似性を示すと、ドメイン事前トレーニングが保証される可能性がある。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
論文 参考訳(メタデータ) (2021-04-18T00:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。