論文の概要: SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain
- arxiv url: http://arxiv.org/abs/2407.19584v1
- Date: Sun, 28 Jul 2024 20:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 15:35:33.698048
- Title: SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain
- Title(参考訳): SaulLM-54B & SaulLM-141B: 法域適応のスケールアップ
- Authors: Pierre Colombo, Telmo Pires, Malik Boudiaf, Rui Melo, Dominic Culver, Sofia Morgado, Etienne Malaboeuf, Gabriel Hautreux, Johanne Charpentier, Michael Desa,
- Abstract要約: 法分野に特化した2つの大規模言語モデル (LLM) である SaulLM-54B と SaulLM-141B を紹介する。
SaulLM-54BとSaulLM-141Bの開発は、大規模ドメイン適応によって導かれる。
第2段階と第3段階の合成データの統合により、モデルの能力が向上する。
- 参考スコア(独自算出の注目度): 12.773032988758844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce SaulLM-54B and SaulLM-141B, two large language models (LLMs) tailored for the legal sector. These models, which feature architectures of 54 billion and 141 billion parameters, respectively, are based on the Mixtral architecture. The development of SaulLM-54B and SaulLM-141B is guided by large-scale domain adaptation, divided into three strategies: (1) the exploitation of continued pretraining involving a base corpus that includes over 540 billion of legal tokens, (2) the implementation of a specialized legal instruction-following protocol, and (3) the alignment of model outputs with human preferences in legal interpretations. The integration of synthetically generated data in the second and third steps enhances the models' capabilities in interpreting and processing legal texts, effectively reaching state-of-the-art performance and outperforming previous open-source models on LegalBench-Instruct. This work explores the trade-offs involved in domain-specific adaptation at this scale, offering insights that may inform future studies on domain adaptation using strong decoder models. Building upon SaulLM-7B, this study refines the approach to produce an LLM better equipped for legal tasks. We are releasing base, instruct, and aligned versions on top of SaulLM-54B and SaulLM-141B under the MIT License to facilitate reuse and collaborative research.
- Abstract(参考訳): 本稿では,法分野に適した2つの大言語モデル (LLM) である SaulLM-54B と SaulLM-141B を紹介する。
これらのモデルは、それぞれ54億と1410億のパラメータからなるアーキテクチャを特徴としているが、Mixtralアーキテクチャに基づいている。
The development of SaulLM-54B and SaulLM-141B is guideed by large-scale domain adaptation, divided of the exploitation of continued pretraining involved a base corpus that includes a 5400 billion of legal tokens, (2) the implementation of a special legal instruction-following protocol, and (3) the alignment of model outputs with human preferences in legal interpretations。
第2段階と第3段階の合成データの統合により、法的テキストの解釈と処理能力が向上し、最先端のパフォーマンスを効果的に達成し、LegalBench-Instruct上での以前のオープンソースモデルよりも優れています。
本研究は、このスケールでのドメイン固有適応に関わるトレードオフを探求し、強力なデコーダモデルを用いた将来のドメイン適応に関する知見を提供する。
SaulLM-7Bをベースとしたこの研究は、法的なタスクに優れたLCMを製造するためのアプローチを洗練させる。
私たちは、再利用と共同研究を容易にするために、MITライセンスの下でSulLM-54BとSulLM-141Bの上にベース、インストラクション、アライメントバージョンをリリースしています。
関連論文リスト
- 52B to 1T: Lessons Learned via Tele-FLM Series [96.19923831660266]
我々は、SFTデータ構築のための"less is more"アプローチをサポートするTele-FLM-52B上のSupervised Fine-tuning(SFT)について論じる。
520億から102億へと、そしてその後1兆のパラメータへと、モデルを段階的に成長させるためのベストプラクティスに関する実験と分析を実演する。
我々は、さらなるトレーニングと研究を進めるために、Tele-FLM-1Tと呼ばれる1Tモデルのチェックポイントをオープンソース化する。
論文 参考訳(メタデータ) (2024-07-03T03:21:02Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - FLawN-T5: An Empirical Examination of Effective Instruction-Tuning Data Mixtures for Legal Reasoning [47.001169623840354]
LawInstructは17の管轄区域、24の言語、合計12万のサンプルをカバーする大規模な法的命令データセットである。
ドメイン固有の事前学習と指導訓練がLegalBenchの性能を向上させることを示す。
LawInstructは、より強力な情報処理と法的領域における意思決定能力を備えたモデルの開発を促進するためのリソースである。
論文 参考訳(メタデータ) (2024-04-02T17:33:34Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - SaulLM-7B: A pioneering Large Language Model for Law [20.171732674390757]
SaulLM-7Bは、法律ドメイン用に設計された大型言語モデル(LLM)である。
70億のパラメータを持つ SaulLM-7B は、法的テキストの理解と生成のために明示的に設計された最初の LLM である。
論文 参考訳(メタデータ) (2024-03-06T17:42:16Z) - Large Language Models are legal but they are not: Making the case for a
powerful LegalLLM [0.0]
最近のLarge Language Models(LLMs)の急増は、法的領域にNLPを適用する新たな機会を提供し始めている。
契約条件分類のためのLexGLUEベンチマークのLEDGARサブセットにおける汎用LLM(ChatGPT-20b, LLaMA-2-70b, Falcon-180b)のゼロショット性能を比較した。
LLMは法的なデータで明示的に訓練されていないが、ほとんどの場合、そのテーマを正しく分類することが可能である。
論文 参考訳(メタデータ) (2023-11-15T11:50:10Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - LeXFiles and LegalLAMA: Facilitating English Multinational Legal
Language Model Development [8.931169262582442]
法律指向事前学習言語モデル(PLM)の性能に関する詳細な分析を行う。
本研究は, 本来の目的, 獲得した知識, 法的言語理解能力の相互作用について検討する。
関連する法的トピックにおいて,提案性能は上流のパフォーマンスと強く相関していることが判明した。
論文 参考訳(メタデータ) (2023-05-12T14:21:38Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。