論文の概要: When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset
- arxiv url: http://arxiv.org/abs/2104.08671v1
- Date: Sun, 18 Apr 2021 00:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 04:12:40.903015
- Title: When Does Pretraining Help? Assessing Self-Supervised Learning for Law
and the CaseHOLD Dataset
- Title(参考訳): プレトレーニングはいつ役に立つのか?
法とケースホールドデータセットのための自己監督学習の評価
- Authors: Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, Daniel
E. Ho
- Abstract要約: 53,000以上の選択質問からなる新しいデータセットを提示し、引用されたケースの保持状況を特定する。
タスクがプリトレーニングコーパスと十分な類似性を示すと、ドメイン事前トレーニングが保証される可能性がある。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
- 参考スコア(独自算出の注目度): 2.0924876102146714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While self-supervised learning has made rapid advances in natural language
processing, it remains unclear when researchers should engage in
resource-intensive domain-specific pretraining (domain pretraining). The law,
puzzlingly, has yielded few documented instances of substantial gains to domain
pretraining in spite of the fact that legal language is widely seen to be
unique. We hypothesize that these existing results stem from the fact that
existing legal NLP tasks are too easy and fail to meet conditions for when
domain pretraining can help. To address this, we first present CaseHOLD (Case
Holdings On Legal Decisions), a new dataset comprised of over 53,000+ multiple
choice questions to identify the relevant holding of a cited case. This dataset
presents a fundamental task to lawyers and is both legally meaningful and
difficult from an NLP perspective (F1 of 0.4 with a BiLSTM baseline). Second,
we assess performance gains on CaseHOLD and existing legal NLP datasets. While
a Transformer architecture (BERT) pretrained on a general corpus (Google Books
and Wikipedia) improves performance, domain pretraining (using corpus of
approximately 3.5M decisions across all courts in the U.S. that is larger than
BERT's) with a custom legal vocabulary exhibits the most substantial
performance gains with CaseHOLD (gain of 7.2% on F1, representing a 12%
improvement on BERT) and consistent performance gains across two other legal
tasks. Third, we show that domain pretraining may be warranted when the task
exhibits sufficient similarity to the pretraining corpus: the level of
performance increase in three legal tasks was directly tied to the domain
specificity of the task. Our findings inform when researchers should engage
resource-intensive pretraining and show that Transformer-based architectures,
too, learn embeddings suggestive of distinct legal language.
- Abstract(参考訳): 自己教師型学習は自然言語処理において急速に進歩してきたが、いつ研究者が資源集約型ドメイン固有の事前訓練(ドメイン事前訓練)を行うべきかは定かではない。
この法律は、法律言語が広くユニークであると見なされているにもかかわらず、ドメイン事前訓練に実質的な利益の文書化された事例は少ない。
これらの既存の結果は、既存の法的NLPタスクがあまりに簡単であり、ドメイン事前学習が助けとなる条件を満たすことができないという事実に由来すると仮定する。
これを解決するために、まず、引用された事例の関連保持を識別するために、53,000以上の選択質問からなる新しいデータセットであるCaseHOLD(Case Holdings On Legal Decisions)を提示する。
このデータセットは弁護士にとって基本的なタスクであり、nlpの観点から法的に有意義かつ困難である(bilstmのベースラインを持つ0.4のf1)。
第2に、CaseHOLDおよび既存の法的NLPデータセットの性能向上を評価する。
一般的なコーパス(Google BooksとWikipedia)で事前トレーニングされた変換アーキテクチャ(BERT)はパフォーマンスを改善するが、ドメイン事前トレーニング(BERTよりも大きい米国全裁判所で約3.5Mの判定コーパスを使用する)は、CaseHOLD(F1では7.2%、BERTでは12%)と他の2つの法的タスクで一貫したパフォーマンス向上を示す。
第3に,プリトレーニングコーパスと十分な類似性を示す場合,ドメイン事前トレーニングが保証される可能性を示す。 3つの法的タスクにおけるパフォーマンス向上のレベルは,タスクのドメイン特異性に直接結び付いていた。
我々の研究結果は、研究者がいつリソース集約的な事前訓練を行うべきかを知らせ、Transformerベースのアーキテクチャも、異なる法的言語を示唆する埋め込みを学習することを示す。
関連論文リスト
- TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - LawLLM: Law Large Language Model for the US Legal System [43.13850456765944]
我々は,米国法域に特化して設計されたマルチタスクモデルであるLawLLM(Law Large Language Model)を紹介する。
類似症例検索(SCR)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)においてLawLLMが優れている
そこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:51:30Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Automated Refugee Case Analysis: An NLP Pipeline for Supporting Legal
Practitioners [0.0]
本稿では,訴訟から対象情報を検索,処理,抽出するためのエンドツーエンドパイプラインを提案する。
カナダにおける難民法を事例として,未研究の法域を調査した。
論文 参考訳(メタデータ) (2023-05-24T19:37:23Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Pre-trained Language Models for the Legal Domain: A Case Study on Indian
Law [7.366081387295463]
私たちは、インドの法律データに基づいて、人気のある2つの法的PLM(LegalBERTとCaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。
我々は,新たなドメイン(インド文)の性能向上だけでなく,原ドメイン(ヨーロッパ文,イギリス文)の性能向上にも留意する。
論文 参考訳(メタデータ) (2022-09-13T15:01:11Z) - Legal Transformer Models May Not Always Help [3.6061626009104057]
本研究では,法的NLPタスクにおけるドメイン適応型事前学習と言語アダプタの価値について検討する。
ドメイン適応型事前学習は低リソースダウンストリームタスクにのみ有効であることを示す。
さらなる結果として、法定コーパスで事前訓練されたRoBERTaモデルであるLegalRoBERTaをリリースする。
論文 参考訳(メタデータ) (2021-09-14T17:53:55Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。