論文の概要: InternLM-Law: An Open Source Chinese Legal Large Language Model
- arxiv url: http://arxiv.org/abs/2406.14887v1
- Date: Fri, 21 Jun 2024 06:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:33:07.213221
- Title: InternLM-Law: An Open Source Chinese Legal Large Language Model
- Title(参考訳): InternLM-Law: オープンソースの中国の法律大言語モデル
- Authors: Zhiwei Fei, Songyang Zhang, Xiaoyu Shen, Dawei Zhu, Xiao Wang, Maosong Cao, Fengzhe Zhou, Yining Li, Wenwei Zhang, Dahua Lin, Kai Chen, Jidong Ge,
- Abstract要約: InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
- 参考スコア(独自算出の注目度): 72.2589401309848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have showcased impressive capabilities, they struggle with addressing legal queries due to the intricate complexities and specialized expertise required in the legal field. In this paper, we introduce InternLM-Law, a specialized LLM tailored for addressing diverse legal queries related to Chinese laws, spanning from responding to standard legal questions (e.g., legal exercises in textbooks) to analyzing complex real-world legal situations. We meticulously construct a dataset in the Chinese legal domain, encompassing over 1 million queries, and implement a data filtering and processing pipeline to ensure its diversity and quality. Our training approach involves a novel two-stage process: initially fine-tuning LLMs on both legal-specific and general-purpose content to equip the models with broad knowledge, followed by exclusive fine-tuning on high-quality legal data to enhance structured output generation. InternLM-Law achieves the highest average performance on LawBench, outperforming state-of-the-art models, including GPT-4, on 13 out of 20 subtasks. We make InternLM-Law and our dataset publicly available to facilitate future research in applying LLMs within the legal domain.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を示してきたが、法的分野に必要な複雑な複雑さと専門知識のために、法的クエリに対処するのに苦労している。
本稿では,中国法に関する多様な法的クエリに対処するための専門的なLLMであるInternLM-Lawを紹介する。
われわれは、中国法域内に100万以上のクエリを含むデータセットを慎重に構築し、その多様性と品質を確保するために、データフィルタリングと処理パイプラインを実装した。
当社のトレーニングアプローチでは,まず法的な内容と汎用コンテンツの両方を微調整し,より広い知識でモデルを調整し,続いて高品質な法データのみを微調整し,構造化された出力生成を向上させるという,新たな2段階のプロセスが採用されている。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
InternLM-Lawと当社のデータセットを公開して,LLMを法域内で適用するための今後の研究を促進する。
関連論文リスト
- LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model [44.71845500433037]
我々は,中国における法律の応用に特化して設計された,最初のオープンソースモデルであるLawGPTを紹介する。
LawGPTは2つの重要なコンポーネントで構成されている。
実験の結果,LawGPTはオープンソースのLLaMA 7Bモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-06-07T03:52:56Z) - Knowledge-Infused Legal Wisdom: Navigating LLM Consultation through the Lens of Diagnostics and Positive-Unlabeled Reinforcement Learning [19.55121050697779]
本稿では、適応型弁護士のような診断質問を利用して、追加の事例情報を収集する診断法大言語モデル(D3LM)を提案する。
D3LMは、革新的なグラフベースのPositive-Unlabeled Reinforcement Learning (PURL)アルゴリズムを導入し、批判的な質問を生成する。
また,米国事例法データベースに基づく新たな英語CVGデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-05T19:47:35Z) - FLawN-T5: An Empirical Examination of Effective Instruction-Tuning Data Mixtures for Legal Reasoning [47.001169623840354]
LawInstructは17の管轄区域、24の言語、合計12万のサンプルをカバーする大規模な法的命令データセットである。
ドメイン固有の事前学習と指導訓練がLegalBenchの性能を向上させることを示す。
LawInstructは、より強力な情報処理と法的領域における意思決定能力を備えたモデルの開発を促進するためのリソースである。
論文 参考訳(メタデータ) (2024-04-02T17:33:34Z) - Exploring the Nexus of Large Language Models and Legal Systems: A Short Survey [1.0770079992809338]
LLM(Large Language Models)の能力は、法律分野におけるユニークな役割をますます示している。
この調査は、法的テキスト理解、事例検索、分析などのタスクにおけるLLMと法体系の相乗効果について考察する。
この調査では、さまざまな法律システム用に調整された微調整された法的なLLMの最新の進歩と、さまざまな言語で微調整されたLLMのための法的なデータセットが紹介されている。
論文 参考訳(メタデータ) (2024-04-01T08:35:56Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z) - A Short Survey of Viewing Large Language Models in Legal Aspect [0.0]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、強化学習など、多くの分野に変化をもたらした。
LLMの法的分野への統合は、プライバシーの懸念、偏見、説明可能性など、いくつかの法的問題を引き起こしている。
論文 参考訳(メタデータ) (2023-03-16T08:01:22Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。