論文の概要: When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset
- arxiv url: http://arxiv.org/abs/2104.08671v1
- Date: Sun, 18 Apr 2021 00:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 04:12:40.903015
- Title: When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset
- Title(参考訳): プレトレーニングはいつ役に立つのか?
法とケースホールドデータセットのための自己監督学習の評価
- Authors: Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, Daniel
E. Ho
- Abstract要約: 53,000以上の選択質問からなる新しいデータセットを提示し、引用されたケースの保持状況を特定する。
タスクがプリトレーニングコーパスと十分な類似性を示すと、ドメイン事前トレーニングが保証される可能性がある。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
- 参考スコア(独自算出の注目度): 2.0924876102146714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While self-supervised learning has made rapid advances in natural language
processing, it remains unclear when researchers should engage in
resource-intensive domain-specific pretraining (domain pretraining). The law,
puzzlingly, has yielded few documented instances of substantial gains to domain
pretraining in spite of the fact that legal language is widely seen to be
unique. We hypothesize that these existing results stem from the fact that
existing legal NLP tasks are too easy and fail to meet conditions for when
domain pretraining can help. To address this, we first present CaseHOLD (Case
Holdings On Legal Decisions), a new dataset comprised of over 53,000+ multiple
choice questions to identify the relevant holding of a cited case. This dataset
presents a fundamental task to lawyers and is both legally meaningful and
difficult from an NLP perspective (F1 of 0.4 with a BiLSTM baseline). Second,
we assess performance gains on CaseHOLD and existing legal NLP datasets. While
a Transformer architecture (BERT) pretrained on a general corpus (Google Books
and Wikipedia) improves performance, domain pretraining (using corpus of
approximately 3.5M decisions across all courts in the U.S. that is larger than
BERT's) with a custom legal vocabulary exhibits the most substantial
performance gains with CaseHOLD (gain of 7.2% on F1, representing a 12%
improvement on BERT) and consistent performance gains across two other legal
tasks. Third, we show that domain pretraining may be warranted when the task
exhibits sufficient similarity to the pretraining corpus: the level of
performance increase in three legal tasks was directly tied to the domain
specificity of the task. Our findings inform when researchers should engage
resource-intensive pretraining and show that Transformer-based architectures,
too, learn embeddings suggestive of distinct legal language.
- Abstract(参考訳): 自己教師型学習は自然言語処理において急速に進歩してきたが、いつ研究者が資源集約型ドメイン固有の事前訓練(ドメイン事前訓練)を行うべきかは定かではない。
この法律は、法律言語が広くユニークであると見なされているにもかかわらず、ドメイン事前訓練に実質的な利益の文書化された事例は少ない。
これらの既存の結果は、既存の法的NLPタスクがあまりに簡単であり、ドメイン事前学習が助けとなる条件を満たすことができないという事実に由来すると仮定する。
これを解決するために、まず、引用された事例の関連保持を識別するために、53,000以上の選択質問からなる新しいデータセットであるCaseHOLD(Case Holdings On Legal Decisions)を提示する。
このデータセットは弁護士にとって基本的なタスクであり、nlpの観点から法的に有意義かつ困難である(bilstmのベースラインを持つ0.4のf1)。
第2に、CaseHOLDおよび既存の法的NLPデータセットの性能向上を評価する。
一般的なコーパス(Google BooksとWikipedia)で事前トレーニングされた変換アーキテクチャ(BERT)はパフォーマンスを改善するが、ドメイン事前トレーニング(BERTよりも大きい米国全裁判所で約3.5Mの判定コーパスを使用する)は、CaseHOLD(F1では7.2%、BERTでは12%)と他の2つの法的タスクで一貫したパフォーマンス向上を示す。
第3に,プリトレーニングコーパスと十分な類似性を示す場合,ドメイン事前トレーニングが保証される可能性を示す。 3つの法的タスクにおけるパフォーマンス向上のレベルは,タスクのドメイン特異性に直接結び付いていた。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
関連論文リスト
- Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.06066299987106]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Automated Refugee Case Analysis: An NLP Pipeline for Supporting Legal
Practitioners [0.0]
本稿では,訴訟から対象情報を検索,処理,抽出するためのエンドツーエンドパイプラインを提案する。
カナダにおける難民法を事例として,未研究の法域を調査した。
論文 参考訳(メタデータ) (2023-05-24T19:37:23Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - AraLegal-BERT: A pretrained language model for Arabic Legal text [0.399013650624183]
AraLegal-BERTは双方向エンコーダトランスフォーマーベースのモデルで、徹底的にテストされ、慎重に最適化されている。
AraLegal-BERTを微調整し、3つの自然言語理解(NLU)タスクにおいて、アラビア語の3つのBERT変種に対して評価した。
その結果、AraLegal-BERTのベースバージョンは、法典テキストよりも一般的なBERTよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-15T13:08:40Z) - Pre-trained Language Models for the Legal Domain: A Case Study on Indian
Law [7.366081387295463]
私たちは、インドの法律データに基づいて、人気のある2つの法的PLM(LegalBERTとCaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。
我々は,新たなドメイン(インド文)の性能向上だけでなく,原ドメイン(ヨーロッパ文,イギリス文)の性能向上にも留意する。
論文 参考訳(メタデータ) (2022-09-13T15:01:11Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Legal Transformer Models May Not Always Help [3.6061626009104057]
本研究では,法的NLPタスクにおけるドメイン適応型事前学習と言語アダプタの価値について検討する。
ドメイン適応型事前学習は低リソースダウンストリームタスクにのみ有効であることを示す。
さらなる結果として、法定コーパスで事前訓練されたRoBERTaモデルであるLegalRoBERTaをリリースする。
論文 参考訳(メタデータ) (2021-09-14T17:53:55Z) - Comparing the Performance of NLP Toolkits and Evaluation measures in
Legal Tech [0.0]
我々は,事前訓練されたニューラルネットワークモデル,XLNet(autoregressive),BERT(autoencoder)を比較し,分析する。
XLNet Modelは法定オピニオン分類のシーケンス分類タスクで、BERTはNERタスクで、より良い結果を生成する。
bertモデルをさらに法的ドメインに適用するために、ドメイン固有の事前トレーニングと追加の法的語彙を使用します。
論文 参考訳(メタデータ) (2021-03-12T11:06:32Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。