論文の概要: Brazilian Court Documents Clustered by Similarity Together Using Natural
Language Processing Approaches with Transformers
- arxiv url: http://arxiv.org/abs/2204.07182v1
- Date: Thu, 14 Apr 2022 18:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 14:44:54.856396
- Title: Brazilian Court Documents Clustered by Similarity Together Using Natural
Language Processing Approaches with Transformers
- Title(参考訳): トランスフォーマーを用いた自然言語処理アプローチによる類似性によって集約されたブラジルの裁判所文書
- Authors: Raphael Souza de Oliveira and Erick Giovani Sperandio Nascimento
- Abstract要約: 本研究の目的は、推論グループで達成できる司法文書間の類似度を検出することである。
ブラジルポルトガル語で事前訓練されたBERT、GPT-2、RoBERTaの変圧器に基づく6つのNLP技術を適用している。
教師なし学習は、集団の要素と中心体の間の距離のコサインに基づいて、モデルの質を計算し、訴訟をクラスタリングするために使用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Artificial intelligence (AI) have leveraged promising
results in solving complex problems in the area of Natural Language Processing
(NLP), being an important tool to help in the expeditious resolution of
judicial proceedings in the legal area. In this context, this work targets the
problem of detecting the degree of similarity between judicial documents that
can be achieved in the inference group, by applying six NLP techniques based on
transformers, namely BERT, GPT-2 and RoBERTa pre-trained in the Brazilian
Portuguese language and the same specialized using 210,000 legal proceedings.
Documents were pre-processed and had their content transformed into a vector
representation using these NLP techniques. Unsupervised learning was used to
cluster the lawsuits, calculating the quality of the model based on the cosine
of the distance between the elements of the group to its centroid. We noticed
that models based on transformers present better performance when compared to
previous research, highlighting the RoBERTa model specialized in the Brazilian
Portuguese language, making it possible to advance in the current state of the
art in the area of NLP applied to the legal sector.
- Abstract(参考訳): 最近の人工知能(ai)の進歩は、自然言語処理(nlp)領域における複雑な問題を解決するために有望な結果を活用し、法的領域における司法手続の迅速な解決に役立つ重要なツールとなっている。
この文脈では、ブラジルポルトガル語で事前訓練されたBERT、GPT-2、RoBERTaという変圧器をベースとした6つのNLP技術を適用することにより、推論グループで達成できる司法文書間の類似度を検出する問題と、21万件の訴訟手続を専門とする。
文書は前処理され、その内容はこれらのNLP技術を用いてベクトル表現に変換された。
教師なし学習は、集団の要素と中心体の間の距離のコサインに基づいてモデルの品質を計算し、訴訟をクラスタリングするために使用された。
トランスフォーマに基づくモデルは,ブラジルポルトガル語を専門とするロベルタモデルに注目し,法学分野に適用されるnlpの領域における現在の技術の発展を可能にした。
関連論文リスト
- LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK
Case Law Dataset [0.0]
本研究は, 英国裁判所判決の大規模コーパスから, 判例, 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、
我々は、ケンブリッジ法コーパス356,011英国の裁判所決定を用いて、大きな言語モデルは、キーワードに対して重み付けされたF1スコアが0.94対0.78であると判断する。
我々は,3,102件の要約判断事例を同定し抽出し,その分布を時間的範囲の様々な英国裁判所にマップできるようにする。
論文 参考訳(メタデータ) (2024-03-04T10:13:30Z) - Transformer-based Entity Legal Form Classification [43.75590166844617]
本稿では,形式分類のためのトランスフォーマーに基づく言語モデルを提案する。
BERTのバリエーションを多用し、その性能を従来の複数のベースラインと比較する。
以上の結果から,事前学習したBERT変種は従来のテキスト分類法よりもF1スコアで優れていた。
論文 参考訳(メタデータ) (2023-10-19T14:11:43Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - An Uncommon Task: Participatory Design in Legal AI [64.54460979588075]
われわれは10年以上前に行われた法律分野における、注目に値する、未調査のAI設計プロセスについて検討する。
インタラクティブなシミュレーション手法によって,コンピュータ科学者と弁護士が共同設計者になれることを示す。
論文 参考訳(メタデータ) (2022-03-08T15:46:52Z) - Lex Rosetta: Transfer of Predictive Models Across Languages,
Jurisdictions, and Legal Domains [40.58709137006848]
言語間で転送可能なGRU(Gated Recurrent Units)を用いたシーケンスラベリングモデルにおけるLanguage-Agnostic Sentence Representationsの使用を分析する。
トレーニング対象のコンテキストを超えて,モデルが一般化されることが分かりました。
複数のコンテキストでモデルをトレーニングすることで、ロバスト性が向上し、これまで見つからなかったコンテキストで評価する際の全体的なパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2021-12-15T04:53:13Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset [2.0924876102146714]
53,000以上の選択質問からなる新しいデータセットを提示し、引用されたケースの保持状況を特定する。
タスクがプリトレーニングコーパスと十分な類似性を示すと、ドメイン事前トレーニングが保証される可能性がある。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
論文 参考訳(メタデータ) (2021-04-18T00:57:16Z) - Predicting Legal Proceedings Status: Approaches Based on Sequential Text
Data [0.0]
本稿では,ブラジルの法的手続を3段階に分類する予測モデルを開発する。
自然言語処理(NLP)と機械学習技術を組み合わせて問題解決を行った。
我々のアプローチは最大精度.93、最高スコアは.89(マクロ)と.93(重み)を達成した。
論文 参考訳(メタデータ) (2020-03-13T19:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。