論文の概要: Towards Intelligent Legal Document Analysis: CNN-Driven Classification of Case Law Texts
- arxiv url: http://arxiv.org/abs/2604.17674v1
- Date: Mon, 20 Apr 2026 00:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.632696
- Title: Towards Intelligent Legal Document Analysis: CNN-Driven Classification of Case Law Texts
- Title(参考訳): 知的法文書分析に向けて:CNNによる事例法テキストの分類
- Authors: Moinul Hossain, Sourav Rabi Das, Zikrul Shariar Ayon, Sadia Afrin Promi, Ahnaf Atef Choudhury, Shakila Rahman, Jia Uddin,
- Abstract要約: 本研究は,引用処理分類のための軽量かつ高精度なフレームワークを提案する。
単語認識型FastText埋め込みと1次元畳み込みニューラルネットワーク(CNN)との補間に基づく前処理を併用する。
提案システムは97.26%の分類精度と96.82%のマクロF1スコアを達成し,既存のベースラインを超えている。
- 参考スコア(独自算出の注目度): 1.3192560874022086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal practitioners and judicial institutions face an ever-growing volume of case-law documents characterised by formalised language, lengthy sentence structures, and highly specialised terminology, making manual triage both time-consuming and error-prone. This work presents a lightweight yet high-accuracy framework for citation-treatment classification that pairs lemmatisation-based preprocessing with subword-aware FastText embeddings and a multi-kernel one-dimensional Convolutional Neural Network (CNN). Evaluated on a publicly available corpus of 25,000 annotated legal documents with a 75/25 training-test partition, the proposed system achieves 97.26% classification accuracy and a macro F1-score of 96.82%, surpassing established baselines including fine-tuned BERT, Long Short-Term Memory (LSTM) with FastText, CNN with random embeddings, and a Term Frequency-Inverse Document Frequency (TF-IDF) k-Nearest Neighbour (KNN) classifier. The model also attains the highest Area Under the Receiver Operating Characteristic (AUC-ROC) curve of 97.83% among all compared systems while operating with only 5.1 million parameters and an inference latency of 0.31 ms per document - more than 13 times faster than BERT. Ablation experiments confirm the individual contribution of each pipeline component, and the confusion matrix reveals that residual errors are confined to semantically adjacent citation categories. These findings indicate that carefully designed convolutional architectures represent a scalable, resource-efficient alternative to heavyweight transformers for intelligent legal document analysis.
- Abstract(参考訳): 法律実務者や司法機関は、形式化された言語、長い文構造、高度に専門化された用語によって特徴づけられるケースロー文書の増大に直面する。
本稿では,サブワードを意識したFastText埋め込みと,マルチカーネル1次元畳み込みニューラルネットワーク(CNN)とを組み合わさった,ラム処理に基づく事前処理を実現する,引用処理分類のための軽量かつ高精度なフレームワークを提案する。
75/25のトレーニング-テストパーティションを持つ25,000の注釈付き法典コーパスに基づいて、提案システムは97.26%の分類精度と96.82%のマクロF1スコアを達成し、FastTextによる微調整BERT、Long Short-Term Memory(LSTM)、ランダムな埋め込みを伴うCNN、TF-IDF(Term Frequency-Inverse Document Frequency) k-Nearest Neighbour(KNN)分類器を含む確立されたベースラインを超えた。
また、AUC-ROC (Area Under the Receiver Operating Characteristics) 曲線は97.83%で、5.100万のパラメータと1文書あたりの推論遅延は0.31msであり、BERTの13倍以上である。
アブレーション実験により各パイプライン成分の個々の寄与が確認され、混乱行列は残差誤差がセマンティックに隣接した引用カテゴリに限定されていることを明らかにする。
これらの結果から,高度に設計された畳み込み型アーキテクチャは,インテリジェントな法的文書解析のためのヘビー級変圧器に代わる,スケーラブルで資源効率のよい代替品であることが示唆された。
関連論文リスト
- Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems [0.0]
埋め込み空間における交叉重なりのモデル相対尺度として意味的絡み合いを定式化する。
埋め込みに先立って文書を再構成する4段階の事前処理フレームワークであるセマンティック・ディスタングルメント・パイプライン(SDP)を紹介した。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
論文 参考訳(メタデータ) (2026-04-20T00:24:34Z) - A Theoretically Grounded Hybrid Ensemble for Reliable Detection of LLM-Generated Text [0.0]
本稿では,3つの相補的検出パラダイムを融合した,理論的に基礎付けられたハイブリッドアンサンブルを提案する。
中心となる新規性は、F1スコアを最大化する確率的単純度に基づいてアンサンブル重みを学習する最適化された重み付き投票フレームワークにある。
本システムでは、94.2%の精度と0.978のAUCを達成し、学術テキスト上での偽陽性を35%削減した。
論文 参考訳(メタデータ) (2025-11-27T06:42:56Z) - Span-level Detection of AI-generated Scientific Text via Contrastive Learning and Structural Calibration [2.105564340986074]
Sci-SpanDetはAI生成した学術テキストを検出するための構造認識フレームワークである。
セクション条件付きスタイリスティックモデリングとマルチレベルコントラスト学習を組み合わせることで、人間のニュアンスとAIの違いを捉える。
F1(AI)は80.17、AUROCは92.63、Span-F1は74.36である。
論文 参考訳(メタデータ) (2025-10-01T13:35:14Z) - KELPS: A Framework for Verified Multi-Language Autoformalization via Semantic-Syntactic Alignment [5.295540405828356]
KELPSは、非公式データを形式言語に翻訳、合成、フィルタリングするための反復的なフレームワークである。
まず、自然言語を知識方程式(KEs)に翻訳する。
次に、構文構造と意味的意味の両方を保持する厳密に定義された規則により、ターゲット言語に変換する。
このプロセスは6万以上の問題からなる並列コーパスを生み出した。
論文 参考訳(メタデータ) (2025-07-11T15:05:06Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Legal Document Classification: An Application to Law Area Prediction of
Petitions to Public Prosecution Service [6.696983725360808]
本稿では,NLPを用いたテキスト分類手法を提案する。
我々の主な目標は、各分野の法律に請願書を割り当てるプロセスを自動化することです。
最高の結果は、ドメイン固有のコーパスとリカレントニューラルネットワークアーキテクチャに基づいてトレーニングされたWord2Vecの組み合わせで得られる。
論文 参考訳(メタデータ) (2020-10-13T18:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。