論文の概要: LawBench: Benchmarking Legal Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.16289v1
- Date: Thu, 28 Sep 2023 09:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:21:23.418356
- Title: LawBench: Benchmarking Legal Knowledge of Large Language Models
- Title(参考訳): lawbench: 大きな言語モデルの法的知識をベンチマークする
- Authors: Zhiwei Fei, Xiaoyu Shen, Dawei Zhu, Fengzhe Zhou, Zhuo Han, Songyang
Zhang, Kai Chen, Zongwen Shen, Jidong Ge
- Abstract要約: 大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
- 参考スコア(独自算出の注目度): 35.2812008533622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong capabilities in various
aspects. However, when applying them to the highly specialized, safe-critical
legal domain, it is unclear how much legal knowledge they possess and whether
they can reliably perform legal-related tasks. To address this gap, we propose
a comprehensive evaluation benchmark LawBench. LawBench has been meticulously
crafted to have precise assessment of the LLMs' legal capabilities from three
cognitive levels: (1) Legal knowledge memorization: whether LLMs can memorize
needed legal concepts, articles and facts; (2) Legal knowledge understanding:
whether LLMs can comprehend entities, events and relationships within legal
text; (3) Legal knowledge applying: whether LLMs can properly utilize their
legal knowledge and make necessary reasoning steps to solve realistic legal
tasks. LawBench contains 20 diverse tasks covering 5 task types: single-label
classification (SLC), multi-label classification (MLC), regression, extraction
and generation. We perform extensive evaluations of 51 LLMs on LawBench,
including 20 multilingual LLMs, 22 Chinese-oriented LLMs and 9 legal specific
LLMs. The results show that GPT-4 remains the best-performing LLM in the legal
domain, surpassing the others by a significant margin. While fine-tuning LLMs
on legal specific text brings certain improvements, we are still a long way
from obtaining usable and reliable LLMs in legal tasks. All data, model
predictions and evaluation code are released in
https://github.com/open-compass/LawBench/. We hope this benchmark provides
in-depth understanding of the LLMs' domain-specified capabilities and speed up
the development of LLMs in the legal domain.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な面で強力な能力を示している。
しかし、高度に専門化され、安全な法的領域に適用する際には、どの程度の法的知識を持ち、確実に法的関連業務を遂行できるかは明らかでない。
このギャップに対処するため,包括的評価ベンチマークLawBenchを提案する。
法ベンチは, 法的知識記憶: LLMが必要な法的概念, 記事, 事実を記憶できるかどうか, (2) 法的知識理解: LLMが法的テキストの中で存在, 出来事, 関係を理解できるかどうか, (3) 法的知識適用: LLMが法的知識を適切に活用し, 現実的な法的タスクを解決できるかどうか, という3つの認知レベルから, LLMの法的能力の正確な評価を慎重に行なっている。
LawBenchには、シングルラベル分類(SLC)、マルチラベル分類(MLC)、回帰、抽出、生成の5つのタスクタイプをカバーする20のタスクが含まれている。
我々はLawBench上で51のLLMを広範囲に評価し、20の多言語LLM、22の中国語LLM、9の法定LLMを含む。
以上の結果から, GPT-4 は法域内で最も優れた LLM であり, 両者の差は大きいことがわかった。
法的な特定のテキストに対する微調整 LLM は、いくつかの改善をもたらすが、法的なタスクで使用可能な信頼性の高い LLM を得るには、まだ長い道のりがある。
すべてのデータ、モデル予測、評価コードはhttps://github.com/open-compass/lawbench/でリリースされる。
このベンチマークは、LLMのドメイン特定能力を詳細に理解し、法的領域におけるLLMの開発を高速化することを願っている。
関連論文リスト
- Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。
LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文 参考訳(メタデータ) (2024-06-22T03:32:09Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - BLT: Can Large Language Models Handle Basic Legal Text? [44.89873147675516]
GPT-4とClaudeは、基本的な法的テキスト処理では性能が良くない。
ベンチマークの粗悪なパフォーマンスは、法的慣行の信頼性を疑うものだ。
トレーニングセットの微調整は、小さなモデルでもほぼ完璧なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-11-16T09:09:22Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - A Short Survey of Viewing Large Language Models in Legal Aspect [0.0]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、強化学習など、多くの分野に変化をもたらした。
LLMの法的分野への統合は、プライバシーの懸念、偏見、説明可能性など、いくつかの法的問題を引き起こしている。
論文 参考訳(メタデータ) (2023-03-16T08:01:22Z) - Legal Prompt Engineering for Multilingual Legal Judgement Prediction [2.539568419434224]
Legal Prompt Engineering (LPE) または Legal Prompting は、大規模言語モデル (LLM) を指導し、支援するプロセスである。
欧州人権裁判所(英語)及びスイス連邦最高裁判所(ドイツ語・フランス語・イタリア語)の事例文におけるゼロショットLPEの性能について検討する。
論文 参考訳(メタデータ) (2022-12-05T12:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。