論文の概要: LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM
- arxiv url: http://arxiv.org/abs/2502.06572v2
- Date: Thu, 13 Feb 2025 07:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:37.506638
- Title: LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM
- Title(参考訳): LawGPT:知識誘導型データ生成と法的LLMへの応用
- Authors: Zhi Zhou, Kun-Yang Yu, Shi-Yu Tian, Xiao-Wen Yang, Jiang-Xin Shi, Pengxiao Song, Yi-Xuan Jin, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 本稿では,法的推論のための知識誘導型データ生成フレームワークを提案する。
当社の枠組みは,法的な知識を活用して生成の多様性を高めることを可能にし,改良と検証プロセスを導入する。
我々の学習モデルであるLawGPTは、既存の法的なLLMよりも優れており、プロプライエタリなLLMに匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 41.31814587755912
- License:
- Abstract: Large language models (LLMs), both proprietary and open-source, have demonstrated remarkable capabilities across various natural language processing tasks. However, they face significant limitations in legal reasoning tasks. Proprietary models introduce data privacy risks and high inference costs, while open-source models underperform due to insufficient legal domain training data. To address these limitations, we study data generation for legal reasoning to improve the legal reasoning performance of open-source LLMs with the help of proprietary LLMs. This is challenging due to the lack of legal knowledge in proprietary LLMs and the difficulty in verifying the generated data. We propose KgDG, a knowledge-guided data generation framework for legal reasoning. Our framework enables leveraging legal knowledge to enhance generation diversity and introduces a refinement and verification process to ensure the quality of generated data. Moreover, we expand the generated dataset to further enhance the LLM reasoning capabilities. Using KgDG, we create a synthetic legal reasoning dataset containing 50K high-quality examples. Our trained model LawGPT outperforms existing legal-specific LLMs and achieves performance comparable to proprietary LLMs, demonstrating the effectiveness of KgDG and LawGPT. Our code and resources is publicly available at https://github.com/LAMDASZ-ML/Knowledge-Guide-Data-Generation .
- Abstract(参考訳): 大きな言語モデル(LLM)は、プロプライエタリとオープンソースの両方で、様々な自然言語処理タスクにまたがる顕著な機能を示している。
しかし、法的推論タスクには重大な制限がある。
プライオリティモデルはデータプライバシのリスクと高い推論コストを導入し、一方、オープンソースモデルは、法律ドメインのトレーニングデータが不十分であるためにパフォーマンスが低下する。
これらの制約に対処するため、我々はLLMの法的な推論性能を改善するために、独自のLLMの助けを借りて、法的な推論のためのデータ生成について研究する。
プロプライエタリなLLMにおける法的知識の欠如と、生成されたデータの検証が難しいため、これは難しい。
法理推論のための知識誘導型データ生成フレームワークであるKgDGを提案する。
当社のフレームワークは,法的な知識を活用して生成の多様性を高めることを可能にし,生成データの品質を保証するための改良と検証プロセスを導入している。
さらに、生成されたデータセットを拡張してLLM推論機能をさらに強化する。
KgDGを用いて、50Kの高品質な例を含む合成法的推論データセットを作成する。
我々の学習モデルであるLawGPTは、既存の法定LLMよりも優れており、KgDGとLawGPTの有効性を実証し、プロプライエタリLLMに匹敵する性能を実現している。
私たちのコードとリソースはhttps://github.com/LAMDASZ-ML/Knowledge-Guide-Data-Generation で公開されています。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - LiCoEval: Evaluating LLMs on License Compliance in Code Generation [27.368667936460508]
大規模言語モデル(LLM)はコード生成に革命をもたらし、開発者によるAIコーディングツールの普及につながった。
LLMは、ライセンス情報を提供することなくライセンス保護されたコードを生成することができ、ソフトウェア製造中に知的財産権侵害を引き起こす可能性がある。
本稿では,LLM生成コードにおけるライセンスコンプライアンスの重要かつ未解明な問題に対処する。
論文 参考訳(メタデータ) (2024-08-05T14:09:30Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model [44.71845500433037]
我々は,中国における法律の応用に特化して設計された,最初のオープンソースモデルであるLawGPTを紹介する。
LawGPTは2つの重要なコンポーネントで構成されている。
実験の結果,LawGPTはオープンソースのLLaMA 7Bモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-06-07T03:52:56Z) - Knowledge-Infused Legal Wisdom: Navigating LLM Consultation through the Lens of Diagnostics and Positive-Unlabeled Reinforcement Learning [19.55121050697779]
本稿では、適応型弁護士のような診断質問を利用して、追加の事例情報を収集する診断法大言語モデル(D3LM)を提案する。
D3LMは、革新的なグラフベースのPositive-Unlabeled Reinforcement Learning (PURL)アルゴリズムを導入し、批判的な質問を生成する。
また,米国事例法データベースに基づく新たな英語CVGデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-05T19:47:35Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Large Language Models as Tax Attorneys: A Case Study in Legal
Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。
実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。
発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文 参考訳(メタデータ) (2023-06-12T12:40:48Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。