論文の概要: Advantages of Domain Knowledge Injection for Legal Document Summarization: A Case Study on Summarizing Indian Court Judgments in English and Hindi
- arxiv url: http://arxiv.org/abs/2602.07382v1
- Date: Sat, 07 Feb 2026 05:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.596849
- Title: Advantages of Domain Knowledge Injection for Legal Document Summarization: A Case Study on Summarizing Indian Court Judgments in English and Hindi
- Title(参考訳): 法的文書要約のためのドメイン知識注入の利点:英語とヒンディー語におけるインド裁判所判決の要約を事例として
- Authors: Debtanu Datta, Rajdeep Mukherjee, Adrijit Goswami, Saptarshi Ghosh,
- Abstract要約: 我々は、インド法典の要約を改善し、英語とヒンディー語の両方で要約を生成することを目指している。
法律文に適したドメイン固有の事前学習エンコーダを組み込むことにより,抽出的神経要約モデルを強化する枠組みを提案する。
提案手法は,英語・英語・ヒンディー語・インドの法律文書の要約において統計的に有意な改善を実現している。
- 参考スコア(独自算出の注目度): 6.770978279356662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarizing Indian legal court judgments is a complex task not only due to the intricate language and unstructured nature of the legal texts, but also since a large section of the Indian population does not understand the complex English in which legal text is written, thus requiring summaries in Indian languages. In this study, we aim to improve the summarization of Indian legal text to generate summaries in both English and Hindi (the most widely spoken Indian language), by injecting domain knowledge into diverse summarization models. We propose a framework to enhance extractive neural summarization models by incorporating domain-specific pre-trained encoders tailored for legal texts. Further, we explore the injection of legal domain knowledge into generative models (including Large Language Models) through continual pre-training on large legal corpora in English and Hindi. Our proposed approaches achieve statistically significant improvements in both English-to-English and English-to-Hindi Indian legal document summarization, as measured by standard evaluation metrics, factual consistency metrics, and legal domain-specific metrics. Furthermore, these improvements are validated through domain experts, demonstrating the effectiveness of our approaches.
- Abstract(参考訳): インドの裁判所判決の要約は、複雑な言語と非構造的な法文の性質のためだけでなく、インドの人口の大部分が法文が書かれる複雑な英語を理解しておらず、したがってインドの言語で要約を必要とするため、複雑な作業である。
本研究では、ドメイン知識を多様な要約モデルに注入することにより、インド法典の要約を改善し、英語とヒンディー語(最も広く話されているインド語)の要約を生成することを目的とする。
法律文に適したドメイン固有の事前学習エンコーダを組み込むことにより,抽出的神経要約モデルを強化する枠組みを提案する。
さらに、英語とヒンディー語における大規模法定コーパスの継続事前学習を通じて、法的なドメイン知識を生成モデル(大言語モデルを含む)に注入することを検討する。
提案手法は, 標準評価指標, 事実整合性指標, 法的ドメイン固有指標によって測定され, 英語と英語とヒンディー語の両方の法的文書要約において統計的に有意な改善が得られた。
さらに、これらの改善はドメインの専門家によって検証され、我々のアプローチの有効性が実証されます。
関連論文リスト
- LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - NyayaAnumana & INLegalLlama: The Largest Indian Legal Judgment Prediction Dataset and Specialized Language Model for Enhanced Decision Analysis [5.790242888372048]
本稿では,インドにおける判例の最大かつ多種多様なコーパスであるNyayaAnumanaについて紹介する。
ニヤヤ・アヌナナには最高裁判所、高等裁判所、法廷、地方裁判所、日刊令など幅広い事件がある。
InLegalLlamaは,インド法体系の複雑さに合わせたドメイン固有生成型大規模言語モデル(LLM)である。
論文 参考訳(メタデータ) (2024-12-11T13:50:17Z) - IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoning [16.12863746776168]
世界中の法制度は、事例や文書の指数的な増加と共に浸水している。
法律文書を自動的に処理し理解するためのNLPおよびML技術を開発する必要がある。
本稿では, IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoningを提案する。
論文 参考訳(メタデータ) (2024-07-07T14:55:04Z) - Legal Judgment Reimagined: PredEx and the Rise of Intelligent AI Interpretation in Indian Courts [6.339932924789635]
textbfPrediction with textbfExplanation (textttPredEx)は、インドの文脈における法的判断予測と説明のための、専門家による最大のデータセットである。
このコーパスは、法的分析におけるAIモデルのトレーニングと評価を大幅に強化する。
論文 参考訳(メタデータ) (2024-06-06T14:57:48Z) - MILDSum: A Novel Benchmark Dataset for Multilingual Summarization of
Indian Legal Case Judgments [6.522489660886997]
公正な司法アクセスを確保するために、インドの言語で法律文書を要約することが不可欠である。
本研究は,ヒンディー語における英語法典の言語間要約に向けた先駆的な取り組みを示す。
我々は、英語とヒンディー語の両方の要約とともに、英語の著名なインド人裁判所から3,122件の判例判決からなる、最初の高品質な法定コーパスを構築した。
論文 参考訳(メタデータ) (2023-10-28T05:51:57Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Indian Legal Text Summarization: A Text Normalisation-based Approach [0.0]
インドの裁判所制度には4つ以上のクロア事件がある。
テキスト要約のための多くの最先端モデルが、機械学習が進むにつれて登場した。
ドメインに依存しないモデルは、法的テキストではうまくいきません。
著者らは、インドの文脈で法的テキストを正規化するための方法論を提案している。
論文 参考訳(メタデータ) (2022-06-13T15:16:50Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。