論文の概要: ChatLaw: Open-Source Legal Large Language Model with Integrated External
Knowledge Bases
- arxiv url: http://arxiv.org/abs/2306.16092v1
- Date: Wed, 28 Jun 2023 10:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:34:26.789017
- Title: ChatLaw: Open-Source Legal Large Language Model with Integrated External
Knowledge Bases
- Title(参考訳): chatlaw: 外部知識ベースを統合したオープンソースの法的大型言語モデル
- Authors: Jiaxi Cui, Zongjian Li, Yang Yan, Bohua Chen and Li Yuan
- Abstract要約: 本稿ではChatLawという,オープンソースの法的大規模言語モデルを提案する。
法的なデータスクリーニングにおけるモデル幻覚の問題を克服するために,ベクトルデータベース検索とキーワード検索を組み合わせた手法を提案する。
また,参照データに存在する誤りを克服する大規模モデルの能力を高める自己認識手法を提案する。
- 参考スコア(独自算出の注目度): 5.5888763670915855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown the potential to revolutionize
natural language processing tasks in various domains, sparking great interest
in vertical-specific large models. However, unlike proprietary models such as
BloombergGPT and FinGPT, which have leveraged their unique data accumulations
to make strides in the finance domain, there hasn't not many similar large
language models in the Chinese legal domain to facilitate its digital
transformation.
In this paper, we propose an open-source legal large language model named
ChatLaw. Due to the importance of data quality, we carefully designed a legal
domain fine-tuning dataset. Additionally, to overcome the problem of model
hallucinations in legal data screening during reference data retrieval, we
introduce a method that combines vector database retrieval with keyword
retrieval to effectively reduce the inaccuracy of relying solely on vector
database retrieval. Furthermore, we propose a self-attention method to enhance
the ability of large models to overcome errors present in reference data,
further optimizing the issue of model hallucinations at the model level and
improving the problem-solving capabilities of large models. We also
open-sourced our model and part of the data at
https://github.com/PKU-YuanGroup/ChatLaw.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域における自然言語処理タスクに革命をもたらす可能性を示しており、垂直特有の大規模モデルに大きな関心を喚起している。
しかし、独自のデータ蓄積を利用して金融分野を前進させたbloomberggptやfingptのようなプロプライエタリなモデルとは異なり、デジタルトランスフォーメーションを促進するために、中国の法律領域に似たような大きな言語モデルはない。
本稿では,ChatLawという,オープンソースの法的大規模言語モデルを提案する。
データ品質の重要性から、法的なドメインの微調整データセットを慎重に設計しました。
さらに,参照データ検索における法データスクリーニングにおけるモデル幻覚の問題を克服するために,ベクトルデータベース検索とキーワード検索を組み合わせた手法を導入し,ベクトルデータベース検索のみに依存する不正確さを効果的に軽減する。
さらに,参照データに存在する誤差を克服する大規模モデルの能力を高めること,モデルレベルでのモデル幻覚の問題を最適化すること,大規模モデルの問題解決能力を向上させることを提案する。
また、当社のモデルとデータの一部をhttps://github.com/PKU-YuanGroup/ChatLaw.comでオープンソース化しました。
関連論文リスト
- LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model [44.71845500433037]
我々は,中国における法律の応用に特化して設計された,最初のオープンソースモデルであるLawGPTを紹介する。
LawGPTは2つの重要なコンポーネントで構成されている。
実験の結果,LawGPTはオープンソースのLLaMA 7Bモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-06-07T03:52:56Z) - DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal
Services [41.92132088988707]
大規模言語モデル(LLM)を利用した知的法体系であるdisC-LawLLMを提案する。
我々は,中国の司法領域において,教師付き微調整データセットの構築を促す法的シロジズムを採用する。
DISC-Law-Eval(英語版)は、客観的および主観的両方の次元からインテリジェントな法体系を評価するために提示される。
論文 参考訳(メタデータ) (2023-09-20T13:50:26Z) - Large Language Models as Tax Attorneys: A Case Study in Legal
Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。
実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。
発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文 参考訳(メタデータ) (2023-06-12T12:40:48Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Parameter-Efficient Legal Domain Adaptation [39.51442413250532]
本稿では,法定事前学習を行うために,公共の法律フォーラムから収集された膨大な教師なしの法定データを用いて,パラメータ効率の高い法定ドメイン適応を提案する。
提案手法は,モデルパラメータの約0.1%をチューニングしながら,既存モデルのショット性能を上回るか,あるいは一致させる。
我々の知る限りでは、この研究は、言語モデルを法域に向けてチューニングするパラメータ効率の高い手法を最初に探求するものである。
論文 参考訳(メタデータ) (2022-10-25T02:14:15Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - How Does NLP Benefit Legal System: A Summary of Legal Artificial
Intelligence [81.04070052740596]
法律人工知能(Legal AI)は、人工知能、特に自然言語処理の技術を適用して、法的領域におけるタスクに役立てることに焦点を当てている。
本稿では,LegalAIにおける研究の歴史,現状,今後の方向性について紹介する。
論文 参考訳(メタデータ) (2020-04-25T14:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。