論文の概要: LAiW: A Chinese Legal Large Language Models Benchmark
- arxiv url: http://arxiv.org/abs/2310.05620v2
- Date: Sun, 18 Feb 2024 05:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:19:24.991539
- Title: LAiW: A Chinese Legal Large Language Models Benchmark
- Title(参考訳): LAiW: 中国の法律大言語モデルベンチマーク
- Authors: Yongfu Dai, Duanyu Feng, Jimin Huang, Haochen Jia, Qianqian Xie,
Yifang Zhang, Weiguang Han, Wei Tian, Hao Wang
- Abstract要約: 一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
- 参考スコア(独自算出の注目度): 17.66376880475554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General and legal domain LLMs have demonstrated strong performance in various
tasks of LegalAI. However, the current evaluations of these LLMs in LegalAI are
defined by the experts of computer science, lacking consistency with the logic
of legal practice, making it difficult to judge their practical capabilities.
To address this challenge, we are the first to build the Chinese legal LLMs
benchmark LAiW, based on the logic of legal practice. To align with the
thinking process of legal experts and legal practice (syllogism), we divide the
legal capabilities of LLMs from easy to difficult into three levels: basic
information retrieval, legal foundation inference, and complex legal
application. Each level contains multiple tasks to ensure a comprehensive
evaluation. Through automated evaluation of current general and legal domain
LLMs on our benchmark, we indicate that these LLMs may not align with the logic
of legal practice. LLMs seem to be able to directly acquire complex legal
application capabilities but perform poorly in some basic tasks, which may pose
obstacles to their practical application and acceptance by legal experts. To
further confirm the complex legal application capabilities of current LLMs in
legal application scenarios, we also incorporate human evaluation with legal
experts. The results indicate that while LLMs may demonstrate strong
performance, they still require reinforcement of legal logic.
- Abstract(参考訳): 一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
しかし、これらのLLMの現在の評価は、コンピュータサイエンスの専門家によって定義されており、法的な実践の論理と整合性に欠けており、実用能力の判断が困難である。
この課題に対処するため、我々はまず、法的実践の論理に基づいて、中国の法的LLMベンチマークLAiWを構築しました。
法律専門家の思考プロセスや法的実践(シロジズム)に合わせるために,LLMの法的能力は,基本的な情報検索,法的基礎推論,複雑な法的応用の3つのレベルに分割する。
各レベルは総合的な評価を保証するために複数のタスクを含んでいる。
本ベンチマークでは,現在の一般領域と法域のLLMを自動評価することにより,これらのLLMは法的な実践の論理と一致しない可能性が示唆された。
llmは、複雑な法的応用能力を直接獲得できるが、いくつかの基本的なタスクでは性能が悪く、その実用的適用や法の専門家の受け入れに支障を来す可能性がある。
法律適用シナリオにおける現在のLLMの複雑な法的な適用能力をさらに確認するために、人間の評価を法の専門家に取り入れる。
その結果, LLMは高い性能を示すが, 法論理の強化が必要であることが示唆された。
関連論文リスト
- BLT: Can Large Language Models Handle Basic Legal Text? [50.46167465931653]
GPT-4、Claude、PaLM 2は基本的な法的テキスト処理では性能が良くない。
これらのタスクの微調整は、テストセット上でのほぼ完全なパフォーマンスにさらに小さなモデルをもたらします。
論文 参考訳(メタデータ) (2023-11-16T09:09:22Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z) - LegalBench: A Collaboratively Built Benchmark for Measuring Legal
Reasoning in Large Language Models [15.98468948605927]
LegalBenchは6種類の法的推論をカバーする162のタスクからなるベンチマークである。
本稿では、LegalBenchについて述べるとともに、20のオープンソースおよび商用LCMの実証的な評価を行い、LegalBenchがもたらす研究のタイプについて説明する。
論文 参考訳(メタデータ) (2023-08-20T22:08:03Z) - Large Language Models as Tax Attorneys: A Case Study in Legal
Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。
実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。
発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文 参考訳(メタデータ) (2023-06-12T12:40:48Z) - A Short Survey of Viewing Large Language Models in Legal Aspect [0.0]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、強化学習など、多くの分野に変化をもたらした。
LLMの法的分野への統合は、プライバシーの懸念、偏見、説明可能性など、いくつかの法的問題を引き起こしている。
論文 参考訳(メタデータ) (2023-03-16T08:01:22Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - How Does NLP Benefit Legal System: A Summary of Legal Artificial
Intelligence [81.04070052740596]
法律人工知能(Legal AI)は、人工知能、特に自然言語処理の技術を適用して、法的領域におけるタスクに役立てることに焦点を当てている。
本稿では,LegalAIにおける研究の歴史,現状,今後の方向性について紹介する。
論文 参考訳(メタデータ) (2020-04-25T14:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。