論文の概要: LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text
Comprehension
- arxiv url: http://arxiv.org/abs/2212.08204v1
- Date: Fri, 16 Dec 2022 00:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:48:17.553588
- Title: LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text
Comprehension
- Title(参考訳): LegalRelectra:Long-range Legal Text Comprehensionのための混合ドメイン言語モデリング
- Authors: Wenyue Hua, Yuchen Zhang, Zhe Chen, Josie Li, and Melanie Weber
- Abstract要約: LegalRelectraは、混合ドメイン法と医療コーパスに基づいて訓練された法律ドメイン言語モデルである。
トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。
- 参考スコア(独自算出の注目度): 6.442209435258797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of Natural Language Processing (NLP) to specialized domains,
such as the law, has recently received a surge of interest. As many legal
services rely on processing and analyzing large collections of documents,
automating such tasks with NLP tools emerges as a key challenge. Many popular
language models, such as BERT or RoBERTa, are general-purpose models, which
have limitations on processing specialized legal terminology and syntax. In
addition, legal documents may contain specialized vocabulary from other
domains, such as medical terminology in personal injury text. Here, we propose
LegalRelectra, a legal-domain language model that is trained on mixed-domain
legal and medical corpora. We show that our model improves over general-domain
and single-domain medical and legal language models when processing
mixed-domain (personal injury) text. Our training architecture implements the
Electra framework, but utilizes Reformer instead of BERT for its generator and
discriminator. We show that this improves the model's performance on processing
long passages and results in better long-range text comprehension.
- Abstract(参考訳): 自然言語処理(NLP)の法則などの専門分野への応用は,近年注目されている。
多くの法律サービスが大量の文書の処理と分析に依存しているため、nlpツールによるタスクの自動化が重要な課題となっている。
BERTやRoBERTaといった多くのポピュラー言語モデルは汎用モデルであり、専門用語や構文の処理に制限がある。
さらに、法的文書には、個人的傷害テキストの医学用語など、他のドメインからの特別な語彙が含まれている場合もある。
本稿では,混合ドメイン法と医療コーパスで訓練された法律ドメイン言語モデルである legalrelectra を提案する。
本モデルは,混合ドメイン(個人的障害)テキストを処理する際に,一般ドメインおよび単一ドメインの医療および法律言語モデルよりも改善することを示す。
トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。
これにより、長文処理におけるモデルの性能が向上し、長文理解が向上することを示す。
関連論文リスト
- Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model [1.3812010983144798]
本稿では,中国語の分節化を伴わずに多数の注釈のない法律文書を活用でき,大規模言語モデルを微調整できることを示す。
また、法的文書草案作成作業も達成でき、同時に情報プライバシーの保護と情報セキュリティ問題の改善も達成できる。
論文 参考訳(メタデータ) (2024-06-06T16:00:20Z) - Improving Legal Judgement Prediction in Romanian with Long Text Encoders [0.8933959485129375]
我々は,LJP(Lawal Judgment Prediction)と呼ばれる訴訟の最終判決を予測するための専門的および一般モデルについて検討する。
本研究では,Transformerをベースとしたモデルのシーケンス長に拡張する手法に着目し,法的なコーパスに存在する長いドキュメントをよりよく理解する。
論文 参考訳(メタデータ) (2024-02-29T13:52:33Z) - One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support [18.810320088441678]
この研究は、法域に対する新しいNLPベンチマークを導入している。
エンフロング文書(最大50Kトークン)の処理、エンフドメイン固有の知識(法的テキストに具体化されている)、エンフマルチリンガル理解(5つの言語をカバーしている)の5つの重要な側面においてLCMに挑戦する。
我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。
論文 参考訳(メタデータ) (2023-06-15T16:19:15Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Toward Improving Attentive Neural Networks in Legal Text Processing [0.20305676256390934]
本論文では,自動文書処理における注意神経ネットワークの改善における主な成果について述べる。
言語モデルは大きくなる傾向にあるが、専門家の知識がなければ、これらのモデルはドメイン適応で失敗する可能性がある。
論文 参考訳(メタデータ) (2022-03-15T20:45:22Z) - JuriBERT: A Masked-Language Model Adaptation for French Legal Text [14.330469316695853]
我々は、法律専門家を支援することを目的として、フランス語の法律文に適合する言語モデルを作成することに注力する。
いくつかの特定のタスクは、大量のデータに基づいて事前訓練された汎用言語モデルの恩恵を受けない、と結論付けている。
JuriBERTは、フランスの法律ドメインに適合したBERTモデルの新しいセットです。
論文 参考訳(メタデータ) (2021-10-04T14:51:24Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。