論文の概要: Large Language Models are legal but they are not: Making the case for a
powerful LegalLLM
- arxiv url: http://arxiv.org/abs/2311.08890v1
- Date: Wed, 15 Nov 2023 11:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:08:04.682224
- Title: Large Language Models are legal but they are not: Making the case for a
powerful LegalLLM
- Title(参考訳): 大規模言語モデルは合法だが、そうではない - 強力な合法性のために
- Authors: Thanmay Jayakumar, Fauzan Farooqui, Luqman Farooqui
- Abstract要約: 最近のLarge Language Models(LLMs)の急増は、法的領域にNLPを適用する新たな機会を提供し始めている。
契約条件分類のためのLexGLUEベンチマークのLEDGARサブセットにおける汎用LLM(ChatGPT-20b, LLaMA-2-70b, Falcon-180b)のゼロショット性能を比較した。
LLMは法的なデータで明示的に訓練されていないが、ほとんどの場合、そのテーマを正しく分類することが可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realizing the recent advances in Natural Language Processing (NLP) to the
legal sector poses challenging problems such as extremely long sequence
lengths, specialized vocabulary that is usually only understood by legal
professionals, and high amounts of data imbalance. The recent surge of Large
Language Models (LLMs) has begun to provide new opportunities to apply NLP in
the legal domain due to their ability to handle lengthy, complex sequences.
Moreover, the emergence of domain-specific LLMs has displayed extremely
promising results on various tasks. In this study, we aim to quantify how
general LLMs perform in comparison to legal-domain models (be it an LLM or
otherwise). Specifically, we compare the zero-shot performance of three
general-purpose LLMs (ChatGPT-20b, LLaMA-2-70b, and Falcon-180b) on the LEDGAR
subset of the LexGLUE benchmark for contract provision classification. Although
the LLMs were not explicitly trained on legal data, we observe that they are
still able to classify the theme correctly in most cases. However, we find that
their mic-F1/mac-F1 performance is up to 19.2/26.8\% lesser than smaller models
fine-tuned on the legal domain, thus underscoring the need for more powerful
legal-domain LLMs.
- Abstract(参考訳): 自然言語処理(nlp)の法的な分野への最近の進歩は、非常に長いシーケンス長、法律専門家によってのみ理解される特殊な語彙、大量のデータ不均衡といった困難な問題を引き起こす。
最近のLarge Language Models (LLMs)の急増は、長く複雑なシーケンスを扱う能力のために、法域にNLPを適用する新たな機会を提供し始めている。
さらに、ドメイン固有のLSMの出現は、様々なタスクにおいて非常に有望な結果を示している。
本研究では,LLM が法領域モデル(LLM など)と比較して,一般 LLM がどのように機能するかを定量化することを目的とする。
具体的には、LexGLUEベンチマークのLEDGARサブセットにおける3つの汎用LCM(ChatGPT-20b, LLaMA-2-70b, Falcon-180b)のゼロショット性能を比較して、契約条件分類を行う。
LLMは法的なデータで明示的に訓練されていないが、ほとんどの場合、そのテーマを正しく分類することができる。
しかし、mic-f1/mac-f1の性能は、法律領域で微調整された小型モデルよりも最大19.2/26.8\%低いため、より強力な法域llmの必要性が強調された。
関連論文リスト
- InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - BLT: Can Large Language Models Handle Basic Legal Text? [44.89873147675516]
GPT-4とClaudeは、基本的な法的テキスト処理では性能が良くない。
ベンチマークの粗悪なパフォーマンスは、法的慣行の信頼性を疑うものだ。
トレーニングセットの微調整は、小さなモデルでもほぼ完璧なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-11-16T09:09:22Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z) - Legal Prompt Engineering for Multilingual Legal Judgement Prediction [2.539568419434224]
Legal Prompt Engineering (LPE) または Legal Prompting は、大規模言語モデル (LLM) を指導し、支援するプロセスである。
欧州人権裁判所(英語)及びスイス連邦最高裁判所(ドイツ語・フランス語・イタリア語)の事例文におけるゼロショットLPEの性能について検討する。
論文 参考訳(メタデータ) (2022-12-05T12:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。