論文の概要: JuriBERT: A Masked-Language Model Adaptation for French Legal Text
- arxiv url: http://arxiv.org/abs/2110.01485v1
- Date: Mon, 4 Oct 2021 14:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 19:35:48.193800
- Title: JuriBERT: A Masked-Language Model Adaptation for French Legal Text
- Title(参考訳): juribert: フランス語の法的テキストをマスクした言語モデル
- Authors: Stella Douka, Hadi Abdine, Michalis Vazirgiannis, Rajaa El Hamdani,
David Restrepo Amariles
- Abstract要約: 我々は、法律専門家を支援することを目的として、フランス語の法律文に適合する言語モデルを作成することに注力する。
いくつかの特定のタスクは、大量のデータに基づいて事前訓練された汎用言語モデルの恩恵を受けない、と結論付けている。
JuriBERTは、フランスの法律ドメインに適合したBERTモデルの新しいセットです。
- 参考スコア(独自算出の注目度): 14.330469316695853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have proven to be very useful when adapted to specific
domains. Nonetheless, little research has been done on the adaptation of
domain-specific BERT models in the French language. In this paper, we focus on
creating a language model adapted to French legal text with the goal of helping
law professionals. We conclude that some specific tasks do not benefit from
generic language models pre-trained on large amounts of data. We explore the
use of smaller architectures in domain-specific sub-languages and their
benefits for French legal text. We prove that domain-specific pre-trained
models can perform better than their equivalent generalised ones in the legal
domain. Finally, we release JuriBERT, a new set of BERT models adapted to the
French legal domain.
- Abstract(参考訳): 言語モデルは特定のドメインに適応する際に非常に有用であることが証明されている。
それでも、フランス語におけるドメイン固有のBERTモデルの適応についてはほとんど研究されていない。
本稿では,法律専門家を支援することを目的として,フランス語法典に適合した言語モデルの作成に着目する。
いくつかの特定のタスクは、大量のデータに基づいて事前訓練された汎用言語モデルの恩恵を受けない。
ドメイン特化サブ言語におけるより小さなアーキテクチャの利用と、フランス語の法文に対するメリットについて検討する。
我々は、ドメイン固有の事前学習モデルが、法域における同等の一般化モデルよりも優れていることを証明した。
最後に、フランス法域に適合したBERTモデルの新しいセットであるJuriBERTをリリースする。
関連論文リスト
- TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text
Comprehension [6.442209435258797]
LegalRelectraは、混合ドメイン法と医療コーパスに基づいて訓練された法律ドメイン言語モデルである。
トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。
論文 参考訳(メタデータ) (2022-12-16T00:15:14Z) - AraLegal-BERT: A pretrained language model for Arabic Legal text [0.399013650624183]
AraLegal-BERTは双方向エンコーダトランスフォーマーベースのモデルで、徹底的にテストされ、慎重に最適化されている。
AraLegal-BERTを微調整し、3つの自然言語理解(NLU)タスクにおいて、アラビア語の3つのBERT変種に対して評価した。
その結果、AraLegal-BERTのベースバージョンは、法典テキストよりも一般的なBERTよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-15T13:08:40Z) - MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.566140528671134]
一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。
本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:26Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Comparing the Performance of NLP Toolkits and Evaluation measures in
Legal Tech [0.0]
我々は,事前訓練されたニューラルネットワークモデル,XLNet(autoregressive),BERT(autoencoder)を比較し,分析する。
XLNet Modelは法定オピニオン分類のシーケンス分類タスクで、BERTはNERタスクで、より良い結果を生成する。
bertモデルをさらに法的ドメインに適用するために、ドメイン固有の事前トレーニングと追加の法的語彙を使用します。
論文 参考訳(メタデータ) (2021-03-12T11:06:32Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。