論文の概要: No Argument Left Behind: Overlapping Chunks for Faster Processing of Arbitrarily Long Legal Texts
- arxiv url: http://arxiv.org/abs/2410.19184v1
- Date: Thu, 24 Oct 2024 22:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:23.428937
- Title: No Argument Left Behind: Overlapping Chunks for Faster Processing of Arbitrarily Long Legal Texts
- Title(参考訳): 法定文書の高速処理のための重なり合うチャンク
- Authors: Israel Fama, Bárbara Bueno, Alexandre Alcoforado, Thomas Palmeira Ferraz, Arnold Moya, Anna Helena Reali Costa,
- Abstract要約: 我々は,TransformerとRecurrent Neural Networkアーキテクチャを組み合わせた,長い法律テキストを扱うハイブリッドモデル uBERT を紹介する。
以上の結果から, uBERT は BERT+LSTM よりも高い性能を示し, 長い法律文書処理において ULMFiT よりもはるかに高速であることがわかった。
- 参考スコア(独自算出の注目度): 39.18504688176798
- License:
- Abstract: In a context where the Brazilian judiciary system, the largest in the world, faces a crisis due to the slow processing of millions of cases, it becomes imperative to develop efficient methods for analyzing legal texts. We introduce uBERT, a hybrid model that combines Transformer and Recurrent Neural Network architectures to effectively handle long legal texts. Our approach processes the full text regardless of its length while maintaining reasonable computational overhead. Our experiments demonstrate that uBERT achieves superior performance compared to BERT+LSTM when overlapping input is used and is significantly faster than ULMFiT for processing long legal documents.
- Abstract(参考訳): ブラジルの司法制度が、何百万ものケースの処理が遅いために危機に直面している状況では、法律文書を効率的に分析する方法を開発することが不可欠になっている。
我々は、TransformerとRecurrent Neural Networkアーキテクチャを組み合わせたハイブリッドモデルであるuBERTを導入し、長い法律テキストを効果的に処理する。
提案手法では,テキストの長さに関わらず,適切な計算オーバーヘッドを保ちながら全文を処理する。
以上の結果より, uBERT は BERT+LSTM よりも高い性能を示し, 長い法律文書処理において ULMFiT よりもはるかに高速であることがわかった。
関連論文リスト
- Automatic Summarization of Long Documents [7.136205674624813]
本研究では,入力サイズ制限を効率的に克服する3つの新しいアルゴリズムを提案する。
我々は70,000語以上のテキストでアルゴリズムをテストし、実験の結果、競争力のあるROUGEスコアによるBERTScoreの顕著な増加が示されている。
論文 参考訳(メタデータ) (2024-10-08T11:00:49Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:48:06Z) - Attentive Deep Neural Networks for Legal Document Retrieval [2.4350217735794337]
法令文書検索における注意型ニューラルネットワークを用いたテキスト表現法について検討した。
長い文や記事を表すために,2つの階層型アーキテクチャを開発し,それをAttentive CNN と Paraformer と命名する。
実験結果から,知覚的ニューラル法は,データセットや言語間での検索性能において,非神経的手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-12-13T01:37:27Z) - Processing Long Legal Documents with Pre-trained Transformers: Modding
LegalBERT and Longformer [23.345417694613403]
TF-IDF機能を持つ単純な線形分類器は、任意の長さのテキストを処理でき、トレーニングやデプロイにはるかに少ないリソースを必要とするが、通常、事前訓練されたトランスフォーマーによって性能が向上することを示す。
i) LegalBERTからウォームスタートしたLongformerを、さらに長いテキスト(最大8,192のサブワード)を扱うように修正し、(ii) LegalBERTをTF-IDF表現を使用するように修正する。
論文 参考訳(メタデータ) (2022-11-02T09:27:01Z) - HLATR: Enhance Multi-stage Text Retrieval with Hybrid List Aware
Transformer Reranking [16.592276887533714]
HLATR(Hybrid List Aware Transformer Re rank)は、検索機能とステージ機能の両方を組み込んだ後継モジュールである。
HLATRは軽量で、既存のテキスト検索システムと容易に並列化できる。
2つの大規模テキスト検索データセットの実証実験により、HLATRは既存の多段階テキスト検索手法のランク付け性能を効率的に向上できることが示された。
論文 参考訳(メタデータ) (2022-05-21T11:38:33Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - Fast and Complete: Enabling Complete Neural Network Verification with
Rapid and Massively Parallel Incomplete Verifiers [112.23981192818721]
BaB プロセス中に線形計画法 (LP) を置き換えるために, 逆モード線形緩和に基づく解析法 (LiRPA) を提案する。
LPとは異なり、LiRPAを適用すると、より弱い境界が得られ、分割時にサブドメインのコンフリクトをチェックすることもできない。
既存のLPベースのアプローチと比較して、桁違いのスピードアップを示す。
論文 参考訳(メタデータ) (2020-11-27T16:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。