論文の概要: Transformer-Based Extraction of Statutory Definitions from the U.S. Code
- arxiv url: http://arxiv.org/abs/2504.16353v1
- Date: Wed, 23 Apr 2025 02:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.970871
- Title: Transformer-Based Extraction of Statutory Definitions from the U.S. Code
- Title(参考訳): 変圧器による米国コードからの法定定義の抽出
- Authors: Arpana Hosabettu, Harsh Shah,
- Abstract要約: 定義項, 定義, 範囲を米国法典(U.S.C.)から自動的に抽出する高度NLPシステムを提案する。
我々の最良のモデルは96.8%の精度と98.9%のリコール(98.2%F1スコア)を達成する
この研究は、下流の法的推論タスクの基礎を確立しながら、アクセシビリティの向上と法情報の理解に寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic extraction of definitions from legal texts is critical for enhancing the comprehension and clarity of complex legal corpora such as the United States Code (U.S.C.). We present an advanced NLP system leveraging transformer-based architectures to automatically extract defined terms, their definitions, and their scope from the U.S.C. We address the challenges of automatically identifying legal definitions, extracting defined terms, and determining their scope within this complex corpus of over 200,000 pages of federal statutory law. Building upon previous feature-based machine learning methods, our updated model employs domain-specific transformers (Legal-BERT) fine-tuned specifically for statutory texts, significantly improving extraction accuracy. Our work implements a multi-stage pipeline that combines document structure analysis with state-of-the-art language models to process legal text from the XML version of the U.S. Code. Each paragraph is first classified using a fine-tuned legal domain BERT model to determine if it contains a definition. Our system then aggregates related paragraphs into coherent definitional units and applies a combination of attention mechanisms and rule-based patterns to extract defined terms and their jurisdictional scope. The definition extraction system is evaluated on multiple titles of the U.S. Code containing thousands of definitions, demonstrating significant improvements over previous approaches. Our best model achieves 96.8% precision and 98.9% recall (98.2% F1-score), substantially outperforming traditional machine learning classifiers. This work contributes to improving accessibility and understanding of legal information while establishing a foundation for downstream legal reasoning tasks.
- Abstract(参考訳): 法律文書から定義を自動抽出することは、アメリカ合衆国法典(U.S.C.)のような複雑な法定コーパスの理解と明確性を高めるために重要である。
我々は、トランスフォーマーに基づくアーキテクチャを活用し、定義項、その定義、そのスコープを米国から自動的に抽出する先進的なNLPシステムを提案する。我々は、法律定義を自動的に識別し、定義項を抽出し、20万ページ以上の連邦法定法を包含するこの複雑なコーパス内でのそれらのスコープを決定するという課題に対処する。
従来の特徴に基づく機械学習手法に基づいて、我々の更新モデルは、法定テキストに特化して微調整されたドメイン固有トランスフォーマー(Legal-BERT)を採用し、抽出精度を大幅に向上させた。
我々の研究は、文書構造解析と最先端言語モデルを組み合わせた多段階パイプラインを実装し、米国コードのXMLバージョンから法的テキストを処理する。
各段落は、定義を含むかどうかを判断するために、細調整された法域 BERT モデルを用いて最初に分類される。
そこで本システムでは,関連項をコヒーレントな定義単位に集約し,アテンション機構とルールに基づくパターンを組み合わせて定義項とその管轄範囲を抽出する。
定義抽出システムは、数千の定義を含む米国コードの複数のタイトルで評価され、以前のアプローチよりも大幅に改善された。
我々の最良のモデルは96.8%の精度と98.9%のリコール(98.2%のF1スコア)を達成し、従来の機械学習分類器を大幅に上回っている。
この研究は、下流の法的推論タスクの基礎を確立しながら、アクセシビリティの向上と法情報の理解に寄与する。
関連論文リスト
- Computational Identification of Regulatory Statements in EU Legislation [0.0]
計算手法は、EUの立法機関からそのような言明の特定をスケールするのに有用である。
機関文法ツールに基づく規制文を構成するための具体的定義を提供する。
論文 参考訳(メタデータ) (2025-05-01T12:11:32Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。
属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。
我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - CRAT: A Multi-Agent Framework for Causality-Enhanced Reflective and Retrieval-Augmented Translation with Large Language Models [59.8529196670565]
CRATは、RAGと因果強化自己回帰を利用して翻訳課題に対処する、新しいマルチエージェント翻訳フレームワークである。
以上の結果からCRATは翻訳精度を著しく向上させ,特に文脈に敏感な単語や語彙の出現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-28T14:29:11Z) - Improving Legal Entity Recognition Using a Hybrid Transformer Model and Semantic Filtering Approach [0.0]
本稿では,法律テキスト処理用に微調整された変圧器モデルであるLegal-BERTの精度と精度を向上させる新しいハイブリッドモデルを提案する。
15,000の注釈付き法律文書のデータセット上で、F1スコア93.4%を達成し、従来の手法よりも精度とリコールが大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-10-11T04:51:28Z) - Explainable machine learning multi-label classification of Spanish legal judgements [6.817247544942709]
本稿では,判断文(文)の多ラベル分類に機械学習を適用し,説明目的の視覚的・自然言語的記述を行うハイブリッドシステムを提案する。
我々のソリューションは、法の専門家によって注釈付けされたラベル付きデータセット上で85%以上のマイクロ精度を達成する。
論文 参考訳(メタデータ) (2024-05-27T19:16:42Z) - LegalPro-BERT: Classification of Legal Provisions by fine-tuning BERT Large Language Model [0.0]
契約分析は、合意の範囲内で重要な規定及び段落の識別及び分類を必要とする。
LegalPro-BERTはBERTトランスフォーマーアーキテクチャモデルであり、法定条項の分類処理を効率的に行うために微調整を行う。
論文 参考訳(メタデータ) (2024-04-15T19:08:48Z) - Automatic explanation of the classification of Spanish legal judgments in jurisdiction-dependent law categories with tree estimators [6.354358255072839]
この研究は、自然言語処理(NLP)と機械学習(ML)を組み合わせて、法的テキストを説明可能な方法で分類するシステムに寄与する。
木構造決定経路の閾値分岐値と決定に関わる特徴を解析する。
法の専門家は我々の解決策を検証しており、この知識は「ループのエキスパート」辞書として説明のプロセスにも組み込まれている。
論文 参考訳(メタデータ) (2024-03-30T17:59:43Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文 参考訳(メタデータ) (2022-01-26T18:48:42Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。