論文の概要: ChatLaw: Open-Source Legal Large Language Model with Integrated External
Knowledge Bases
- arxiv url: http://arxiv.org/abs/2306.16092v1
- Date: Wed, 28 Jun 2023 10:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:34:26.789017
- Title: ChatLaw: Open-Source Legal Large Language Model with Integrated External
Knowledge Bases
- Title(参考訳): chatlaw: 外部知識ベースを統合したオープンソースの法的大型言語モデル
- Authors: Jiaxi Cui, Zongjian Li, Yang Yan, Bohua Chen and Li Yuan
- Abstract要約: 本稿ではChatLawという,オープンソースの法的大規模言語モデルを提案する。
法的なデータスクリーニングにおけるモデル幻覚の問題を克服するために,ベクトルデータベース検索とキーワード検索を組み合わせた手法を提案する。
また,参照データに存在する誤りを克服する大規模モデルの能力を高める自己認識手法を提案する。
- 参考スコア(独自算出の注目度): 5.5888763670915855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown the potential to revolutionize
natural language processing tasks in various domains, sparking great interest
in vertical-specific large models. However, unlike proprietary models such as
BloombergGPT and FinGPT, which have leveraged their unique data accumulations
to make strides in the finance domain, there hasn't not many similar large
language models in the Chinese legal domain to facilitate its digital
transformation.
In this paper, we propose an open-source legal large language model named
ChatLaw. Due to the importance of data quality, we carefully designed a legal
domain fine-tuning dataset. Additionally, to overcome the problem of model
hallucinations in legal data screening during reference data retrieval, we
introduce a method that combines vector database retrieval with keyword
retrieval to effectively reduce the inaccuracy of relying solely on vector
database retrieval. Furthermore, we propose a self-attention method to enhance
the ability of large models to overcome errors present in reference data,
further optimizing the issue of model hallucinations at the model level and
improving the problem-solving capabilities of large models. We also
open-sourced our model and part of the data at
https://github.com/PKU-YuanGroup/ChatLaw.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域における自然言語処理タスクに革命をもたらす可能性を示しており、垂直特有の大規模モデルに大きな関心を喚起している。
しかし、独自のデータ蓄積を利用して金融分野を前進させたbloomberggptやfingptのようなプロプライエタリなモデルとは異なり、デジタルトランスフォーメーションを促進するために、中国の法律領域に似たような大きな言語モデルはない。
本稿では,ChatLawという,オープンソースの法的大規模言語モデルを提案する。
データ品質の重要性から、法的なドメインの微調整データセットを慎重に設計しました。
さらに,参照データ検索における法データスクリーニングにおけるモデル幻覚の問題を克服するために,ベクトルデータベース検索とキーワード検索を組み合わせた手法を導入し,ベクトルデータベース検索のみに依存する不正確さを効果的に軽減する。
さらに,参照データに存在する誤差を克服する大規模モデルの能力を高めること,モデルレベルでのモデル幻覚の問題を最適化すること,大規模モデルの問題解決能力を向上させることを提案する。
また、当社のモデルとデータの一部をhttps://github.com/PKU-YuanGroup/ChatLaw.comでオープンソース化しました。
関連論文リスト
- Critical Data Size of Language Models from a Grokking Perspective [38.26674778407811]
我々は、グラッキング構成下での位相遷移をデータ効率仮説に定式化する。
一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。
その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。
論文 参考訳(メタデータ) (2024-01-19T03:24:36Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Reimagining Retrieval Augmented Language Models for Answering Queries [23.373952699385427]
本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。
このような言語モデルは半パラメトリックであり、モデルがモデルパラメータと外部データソースからの知識を統合して予測を行う。
論文 参考訳(メタデータ) (2023-06-01T18:08:51Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - Internet-augmented language models through few-shot prompting for
open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。
Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。
ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-10T02:24:14Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。