論文の概要: Classifying long legal documents using short random chunks
- arxiv url: http://arxiv.org/abs/2512.24997v1
- Date: Wed, 31 Dec 2025 17:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.727589
- Title: Classifying long legal documents using short random chunks
- Title(参考訳): 短いランダムチャンクを用いた長い法律文書の分類
- Authors: Luis Adrián Cabrera-Diego,
- Abstract要約: 法律文書の分類は、特別な語彙以外には、非常に長い場合もあります。
ランダムに選択された48個の短いチャンクを入力として用いた,DeBERTa V3とLSTMに基づく法的文書を提示する。
最高のモデルでは重み付きFスコアが0.898であり、CPU上で動作するパイプラインは100ファイルあたり498秒の処理中央値であった。
- 参考スコア(独自算出の注目度): 0.021506011798640635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifying legal documents is a challenge, besides their specialized vocabulary, sometimes they can be very long. This means that feeding full documents to a Transformers-based models for classification might be impossible, expensive or slow. Thus, we present a legal document classifier based on DeBERTa V3 and a LSTM, that uses as input a collection of 48 randomly-selected short chunks (max 128 tokens). Besides, we present its deployment pipeline using Temporal, a durable execution solution, which allow us to have a reliable and robust processing workflow. The best model had a weighted F-score of 0.898, while the pipeline running on CPU had a processing median time of 498 seconds per 100 files.
- Abstract(参考訳): 法律文書の分類は、特別な語彙以外には、非常に長い場合もあります。
これは、フルドキュメントをTransformersベースの分類モデルにフィードすることは、不可能、高価、あるいは遅い可能性があることを意味する。
そこで,DeBERTa V3とLSTMに基づく法定文書分類器を,ランダムに選択された48個の短いチャンク(最大128個のトークン)の入力として使用する。
さらに、耐久性のある実行ソリューションであるTemporalを使用して、デプロイメントパイプラインを提示します。
最高のモデルでは重み付きFスコアが0.898であり、CPU上で動作するパイプラインは100ファイルあたり498秒の処理中央値であった。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Document Classification using File Names [7.130525292849283]
迅速な文書分類は、デジタル法医学や大規模メディア分類といった、時間に敏感ないくつかの応用において重要である。
重厚なディープラーニングモデルに依存する従来のアプローチは、膨大な入力データセットとドキュメント全体の分析に関連する計算リソースに対する高い推論時間のために、不足している。
本稿では,TF-IDF特徴抽出に基づくトークン化手法と組み合わせた軽量教師付き学習モデルを用いて,ファイル名のみに基づいて文書を高精度かつ効率的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T01:42:19Z) - Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:48:06Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - NAIL: Lexical Retrieval Indices with Efficient Non-Autoregressive
Decoders [9.400555345874988]
語彙化スコアリング機能を持つTransformerクロスアテンションモデルのゲインを最大86%取得する方法を提案する。
本稿では,最近のエンコーダデコーダやデコーダのみの大規模言語モデルと互換性のあるモデルアーキテクチャとしてNAILを導入する。
論文 参考訳(メタデータ) (2023-05-23T20:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。