論文の概要: LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model
- arxiv url: http://arxiv.org/abs/2406.04614v1
- Date: Fri, 7 Jun 2024 03:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:39:08.283770
- Title: LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model
- Title(参考訳): LawGPT:中国の法律知識強化型大規模言語モデル
- Authors: Zhi Zhou, Jiang-Xin Shi, Peng-Xiao Song, Xiao-Wen Yang, Yi-Xuan Jin, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 我々は,中国における法律の応用に特化して設計された,最初のオープンソースモデルであるLawGPTを紹介する。
LawGPTは2つの重要なコンポーネントで構成されている。
実験の結果,LawGPTはオープンソースのLLaMA 7Bモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 44.71845500433037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs), including both proprietary and open-source models, have showcased remarkable capabilities in addressing a wide range of downstream tasks. Nonetheless, when it comes to practical Chinese legal tasks, these models fail to meet the actual requirements. Proprietary models do not ensure data privacy for sensitive legal cases, while open-source models demonstrate unsatisfactory performance due to their lack of legal knowledge. To address this problem, we introduce LawGPT, the first open-source model specifically designed for Chinese legal applications. LawGPT comprises two key components: legal-oriented pre-training and legal supervised fine-tuning. Specifically, we employ large-scale Chinese legal documents for legal-oriented pre-training to incorporate legal domain knowledge. To further improve the model's performance on downstream legal tasks, we create a knowledge-driven instruction dataset for legal supervised fine-tuning. Our experimental results demonstrate that LawGPT outperforms the open-source LLaMA 7B model. Our code and resources are publicly available at https://github.com/pengxiao-song/LaWGPT and have received 5.7K stars on GitHub.
- Abstract(参考訳): プロプライエタリモデルとオープンソースモデルの両方を含む大規模言語モデル(LLM)は、幅広い下流タスクに対処する際、注目すべき機能を示した。
それでも、中国の現実的な法的タスクに関しては、これらのモデルは実際の要件を満たしていない。
プライオリティモデルは機密性のある訴訟に対してデータのプライバシを保証しないが、オープンソースモデルは法的知識の欠如のために満足のいくパフォーマンスを示す。
この問題に対処するために,中国における法律の応用に特化して設計された,最初のオープンソースモデルであるLawGPTを紹介する。
LawGPTは2つの重要なコンポーネントで構成されている。
具体的には、法的なドメイン知識を組み込むために、法律指向の事前訓練のために、大規模な中国の法律文書を用いる。
下流の法的なタスクにおけるモデルの性能をさらに向上させるために、法的な教師付き微調整のための知識駆動型指導データセットを作成する。
実験の結果,LawGPTはオープンソースのLLaMA 7Bモデルよりも優れていた。
私たちのコードとリソースはhttps://github.com/pengxiao-song/LaWGPTで公開されています。
関連論文リスト
- InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal
Services [41.92132088988707]
大規模言語モデル(LLM)を利用した知的法体系であるdisC-LawLLMを提案する。
我々は,中国の司法領域において,教師付き微調整データセットの構築を促す法的シロジズムを採用する。
DISC-Law-Eval(英語版)は、客観的および主観的両方の次元からインテリジェントな法体系を評価するために提示される。
論文 参考訳(メタデータ) (2023-09-20T13:50:26Z) - Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model [30.30848216845138]
ChatlawはMixture-of-Experts(MoE)モデルとマルチエージェントシステムを利用した革新的な法的アシスタントである。
知識グラフと人工スクリーニングを組み合わせることで,MoEモデルをトレーニングするための高品質な法的データセットを構築する。
弊社のMoEモデルは,法律専門家のGPT-4とUnified Exam Qualificationをそれぞれ7.73%,11ポイントで上回っている。
論文 参考訳(メタデータ) (2023-06-28T10:48:34Z) - CaseEncoder: A Knowledge-enhanced Pre-trained Model for Legal Case
Encoding [15.685369142294693]
CaseEncoderは、データサンプリングと事前トレーニングフェーズの両方において、きめ細かい法的な知識を活用する法律文書エンコーダである。
CaseEncoderは、ゼロショットの判例検索において、既存の一般的な事前訓練モデルと法律固有の事前訓練モデルの両方を著しく上回っている。
論文 参考訳(メタデータ) (2023-05-09T12:40:19Z) - Foundation Models and Fair Use [96.04664748698103]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文 参考訳(メタデータ) (2023-03-28T03:58:40Z) - Pile of Law: Learning Responsible Data Filtering from the Law and a
256GB Open-Source Legal Dataset [46.156169284961045]
我々は, フィルター材料におけるトレードオフに直接対処する法則に基づくフィルタリングへのアプローチを提案する。
まず、256GBのオープンソース英語および行政データのデータセットであるPile of Lawを収集、利用可能にします。
第二に、政府が有毒または私的コンテンツを含めることを規制するために開発した法規範を精査する。
第3に、Pile of Lawが研究者に、このようなフィルタリングルールを直接データから学習する機会を提供する方法を示します。
論文 参考訳(メタデータ) (2022-07-01T06:25:15Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。