論文の概要: Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej
- arxiv url: http://arxiv.org/abs/2504.03486v1
- Date: Fri, 04 Apr 2025 14:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:50:07.981754
- Title: Structured Legal Document Generation in India: A Model-Agnostic Wrapper Approach with VidhikDastaavej
- Title(参考訳): インドにおける構造的法的文書生成:VidhikDastaavejによるモデル非依存のラッパーアプローチ
- Authors: Shubham Kumar Nigam, Balaramamahanthi Deepak Patnaik, Ajay Varghese Thomas, Noel Shallum, Kripabandhu Ghosh, Arnab Bhattacharya,
- Abstract要約: 以下に、VidhikDastaavejを紹介します。
NyayaShilpは、インドの法律文書に特化された微調整の法的文書生成モデルである。
- 参考スコア(独自算出の注目度): 5.790242888372048
- License:
- Abstract: Automating legal document drafting can significantly enhance efficiency, reduce manual effort, and streamline legal workflows. While prior research has explored tasks such as judgment prediction and case summarization, the structured generation of private legal documents in the Indian legal domain remains largely unaddressed. To bridge this gap, we introduce VidhikDastaavej, a novel, anonymized dataset of private legal documents, and develop NyayaShilp, a fine-tuned legal document generation model specifically adapted to Indian legal texts. We propose a Model-Agnostic Wrapper (MAW), a two-step framework that first generates structured section titles and then iteratively produces content while leveraging retrieval-based mechanisms to ensure coherence and factual accuracy. We benchmark multiple open-source LLMs, including instruction-tuned and domain-adapted versions, alongside proprietary models for comparison. Our findings indicate that while direct fine-tuning on small datasets does not always yield improvements, our structured wrapper significantly enhances coherence, factual adherence, and overall document quality while mitigating hallucinations. To ensure real-world applicability, we developed a Human-in-the-Loop (HITL) Document Generation System, an interactive user interface that enables users to specify document types, refine section details, and generate structured legal drafts. This tool allows legal professionals and researchers to generate, validate, and refine AI-generated legal documents efficiently. Extensive evaluations, including expert assessments, confirm that our framework achieves high reliability in structured legal drafting. This research establishes a scalable and adaptable foundation for AI-assisted legal drafting in India, offering an effective approach to structured legal document generation.
- Abstract(参考訳): 法的文書作成の自動化は、効率を大幅に向上させ、手作業の削減、法的ワークフローの合理化を可能にする。
これまでの研究では、判断予測や判例要約といった課題を探求してきたが、インド法域における私的法的文書の構造的世代は、いまだほとんど未定のままである。
このギャップを埋めるために、VidhikDastaavejを紹介します。これは、プライベートな法的文書の匿名化されたデータセットで、インドの法律文書に特化された微調整された法的文書生成モデルであるNyayaShilpを開発します。
提案する2段階のフレームワークであるモデル非依存ラッパー (MAW) を提案する。
命令調整およびドメイン適応型バージョンを含む複数のオープンソースLCMと、プロプライエタリな比較モデルとのベンチマークを行った。
以上の結果から,小さなデータセットを直接微調整することは必ずしも改善をもたらすわけではないが,構造化ラッパーは幻覚を緩和しつつ,一貫性,事実の定着,文書の全体的な品質を著しく向上させることがわかった。
実世界の適用性を確保するために,ユーザが文書タイプを指定し,セクションの詳細を精査し,構造化された法的ドラフトを生成するインタラクティブなユーザインタフェースであるHuman-in-the-Loop (HITL) Document Generation Systemを開発した。
このツールは、法律専門家や研究者がAIが生成した法律文書を効率的に作成、検証、精製することを可能にする。
専門家評価を含む広範囲な評価は、我々の枠組みが構造化された法的起草において高い信頼性を達成できることを確認する。
本研究は、インドにおけるAI支援法草案作成のためのスケーラブルで適応可能な基盤を確立し、構造化法文書生成に対する効果的なアプローチを提供する。
関連論文リスト
- Named entity recognition for Serbian legal documents: Design, methodology and dataset development [0.0]
セルビア語で書かれた法的文書の場合には,名前付きエンティティ認識(NER)の一解法を提案する。
これは、テキストコンテンツから特定のデータポイントを識別し分類する特定のタスクに慎重に適応していた変換器(BERT)からの事前訓練された双方向エンコーダ表現を活用している。
論文 参考訳(メタデータ) (2025-02-14T22:23:39Z) - DocMIA: Document-Level Membership Inference Attacks against DocVQA Models [52.13818827581981]
DocVQAモデルに特化された2つの新しいメンバーシップ推論攻撃を導入する。
提案手法は,さまざまなDocVQAモデルやデータセットに対して,既存の最先端メンバシップ推論よりも優れている。
論文 参考訳(メタデータ) (2025-02-06T00:58:21Z) - Improving Legal Entity Recognition Using a Hybrid Transformer Model and Semantic Filtering Approach [0.0]
本稿では,法律テキスト処理用に微調整された変圧器モデルであるLegal-BERTの精度と精度を向上させる新しいハイブリッドモデルを提案する。
15,000の注釈付き法律文書のデータセット上で、F1スコア93.4%を達成し、従来の手法よりも精度とリコールが大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-10-11T04:51:28Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DocSynthv2: A Practical Autoregressive Modeling for Document Generation [43.84027661517748]
本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
論文 参考訳(メタデータ) (2024-06-12T16:00:16Z) - Re3: A Holistic Framework and Dataset for Modeling Collaborative Document Revision [62.12545440385489]
共同文書リビジョンを共同で分析するためのフレームワークであるRe3を紹介する。
本稿では,Re3-Sciについて紹介する。Re3-Sciは,その行動と意図に応じて手動でラベル付けされた科学的論文の大規模なコーパスである。
我々は,新しいデータを用いて,学術領域における共同文書改訂に関する実証的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T21:19:09Z) - Enhancing Pre-Trained Language Models with Sentence Position Embeddings
for Rhetorical Roles Recognition in Legal Opinions [0.16385815610837165]
法的意見の規模は増え続けており、法的意見の修辞的役割を正確に予測できるモデルを開発することはますます困難になっている。
本稿では,文の位置情報に関する知識によって強化された事前学習言語モデル(PLM)を用いて,修辞的役割を自動的に予測する新しいモデルアーキテクチャを提案する。
LegalEval@SemEval2023コンペティションの注釈付きコーパスに基づいて、我々のアプローチではパラメータが少なく、計算コストが低下することを示した。
論文 参考訳(メタデータ) (2023-10-08T20:33:55Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Semantic Segmentation of Legal Documents via Rhetorical Roles [3.285073688021526]
本稿では,法的文書を意味的に一貫性のある単位に分割する修辞的役割 (RR) システムを提案する。
我々は,法的文書をセグメント化するための補助的タスクとして,文書の修辞的役割ラベルシフトを用いたマルチタスク学習に基づくディープラーニングモデルを開発した。
論文 参考訳(メタデータ) (2021-12-03T10:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。