論文の概要: Processing Long Legal Documents with Pre-trained Transformers: Modding
LegalBERT and Longformer
- arxiv url: http://arxiv.org/abs/2211.00974v1
- Date: Wed, 2 Nov 2022 09:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:09:47.072110
- Title: Processing Long Legal Documents with Pre-trained Transformers: Modding
LegalBERT and Longformer
- Title(参考訳): 事前訓練されたトランスフォーマーによる長い法律文書の処理:法律バートとロングフォーマーのモーディング
- Authors: Dimitris Mamakas, Petros Tsotsi, Ion Androutsopoulos, Ilias Chalkidis
- Abstract要約: TF-IDF機能を持つ単純な線形分類器は、任意の長さのテキストを処理でき、トレーニングやデプロイにはるかに少ないリソースを必要とするが、通常、事前訓練されたトランスフォーマーによって性能が向上することを示す。
i) LegalBERTからウォームスタートしたLongformerを、さらに長いテキスト(最大8,192のサブワード)を扱うように修正し、(ii) LegalBERTをTF-IDF表現を使用するように修正する。
- 参考スコア(独自算出の注目度): 23.345417694613403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Transformers currently dominate most NLP tasks. They impose,
however, limits on the maximum input length (512 sub-words in BERT), which are
too restrictive in the legal domain. Even sparse-attention models, such as
Longformer and BigBird, which increase the maximum input length to 4,096
sub-words, severely truncate texts in three of the six datasets of LexGLUE.
Simpler linear classifiers with TF-IDF features can handle texts of any length,
require far less resources to train and deploy, but are usually outperformed by
pre-trained Transformers. We explore two directions to cope with long legal
texts: (i) modifying a Longformer warm-started from LegalBERT to handle even
longer texts (up to 8,192 sub-words), and (ii) modifying LegalBERT to use
TF-IDF representations. The first approach is the best in terms of performance,
surpassing a hierarchical version of LegalBERT, which was the previous state of
the art in LexGLUE. The second approach leads to computationally more efficient
models at the expense of lower performance, but the resulting models still
outperform overall a linear SVM with TF-IDF features in long legal document
classification.
- Abstract(参考訳): 現在、トレーニング済みのトランスフォーマーがほとんどのNLPタスクを支配している。
しかし、それらは最大入力長(bertの512のサブワード)に制限を課しており、これは法的領域では制限的すぎる。
LongformerやBigBirdのようなスパースアテンションモデルでさえ、最大入力長を4,096のサブワードに増やし、LexGLUEの6つのデータセットのうち3つでテキストを著しく切り詰める。
TF-IDF機能を持つ単純な線形分類器は、任意の長さのテキストを処理でき、トレーニングやデプロイに必要なリソースははるかに少ないが、通常、事前訓練されたトランスフォーマーによって性能が向上する。
長い法律文書に対処するために 2つの方向を探ります
i) LegalBERTからウォームスタートしたLongformerを、さらに長いテキスト(最大8,192個のサブワード)を扱うように変更し、
(ii) TF-IDF表現を使用するために LegalBERT を変更する。
第一のアプローチはパフォーマンスという点で最高のもので、LexGLUEの最先端技術であるLegalBERTの階層的なバージョンを上回っている。
第二のアプローチは、低い性能を犠牲にして計算的により効率的なモデルをもたらすが、結果として得られるモデルは、長い法的文書分類においてTF-IDF特徴を持つ線形SVM全体の性能を上回る。
関連論文リスト
- No Argument Left Behind: Overlapping Chunks for Faster Processing of Arbitrarily Long Legal Texts [39.18504688176798]
我々は,TransformerとRecurrent Neural Networkアーキテクチャを組み合わせた,長い法律テキストを扱うハイブリッドモデル uBERT を紹介する。
以上の結果から, uBERT は BERT+LSTM よりも高い性能を示し, 長い法律文書処理において ULMFiT よりもはるかに高速であることがわかった。
論文 参考訳(メタデータ) (2024-10-24T22:33:30Z) - Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:48:06Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - Can Model Fusing Help Transformers in Long Document Classification? An
Empirical Study [11.395215994671863]
複数のドメインにNLPを適用することで、テキスト分類に多くの新しい課題がもたらされた。
トランスモデルの大多数は512トークンに制限されているため、長い文書分類の問題に悩まされている。
本研究では,長文分類にModel Fusingを用いることについて,その成果を有名なBERTアーキテクチャとLongformerアーキテクチャと比較しながら検討する。
論文 参考訳(メタデータ) (2023-07-18T18:21:26Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - TranSFormer: Slow-Fast Transformer for Machine Translation [52.12212173775029]
本稿では,TrantextbfSFormerと呼ばれる2ストリーム学習モデルを提案する。
我々のTranSFormerは、複数の機械翻訳ベンチマークにおいて、BLEUの一貫性のある改善(BLEU点よりも大きい)を示す。
論文 参考訳(メタデータ) (2023-05-26T14:37:38Z) - An Exploration of Hierarchical Attention Transformers for Efficient Long
Document Classification [37.069127262896764]
ロングフォーマーやビッグバードのようなトランスフォーマーベースのモデルは、長いドキュメントを扱うための一般的なアプローチである。
セグメントワイドおよびクロスセグメントエンコーダを用いた完全事前学習型HATモデルの開発とリリースを行う。
最高のHATモデルは、GPUメモリを10~20%削減し、文書処理を40~45%高速化しながら、同等の大きさのLongformerモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T15:17:56Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。