Fugu-MT 論文翻訳(概要): SaulLM-7B: A pioneering Large Language Model for Law

論文の概要: SaulLM-7B: A pioneering Large Language Model for Law

arxiv url: http://arxiv.org/abs/2403.03883v1
Date: Wed, 6 Mar 2024 17:42:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 14:01:32.041909
Title: SaulLM-7B: A pioneering Large Language Model for Law
Title（参考訳）: SaulLM-7B: 法のための大規模言語モデル
Authors: Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera L\'ucia Raposo, Sofia Morgado, Michael Desa
Abstract要約: SaulLM-7Bは、法律ドメイン用に設計された大型言語モデル(LLM)である。 70億のパラメータを持つ SaulLM-7B は、法的テキストの理解と生成のために明示的に設計された最初の LLM である。
参考スコア（独自算出の注目度）: 20.171732674390757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce SaulLM-7B, a large language model (LLM) tailored for the legal domain. With 7 billion parameters, SaulLM-7B is the first LLM designed explicitly for legal text comprehension and generation. Leveraging the Mistral 7B architecture as its foundation, SaulLM-7B is trained on an English legal corpus of over 30 billion tokens. SaulLM-7B exhibits state-of-the-art proficiency in understanding and processing legal documents. Additionally, we present a novel instructional fine-tuning method that leverages legal datasets to further enhance SaulLM-7B's performance in legal tasks. SaulLM-7B is released under the CC-BY-SA-4.0 License.
Abstract（参考訳）: 本稿では,法律ドメインに適した大規模言語モデル (LLM) である SaulLM-7B を紹介する。 70億のパラメータを持つ SaulLM-7B は、法的テキストの理解と生成のために明示的に設計された最初の LLM である。 Mistral 7Bアーキテクチャを基盤として、SaulLM-7Bは300億以上のトークンからなるイングランドの法定コーパスで訓練されている。 SaulLM-7Bは、法律文書の理解と処理における最先端の能力を示す。さらに、法的なデータセットを利用して法務タスクにおけるsullm-7bの性能をさらに向上させる新しい指導的微調整法を提案する。 SaulLM-7BはCC-BY-SA-4.0ライセンスでリリースされた。

関連論文リスト

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。 PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文参考訳（メタデータ） (2026-01-23T11:36:10Z)
LexGenius: An Expert-Level Benchmark for Large Language Models in Legal General Intelligence [74.05988707492058]
法務総合知能(ぎょうげんがく、英語: Legal General Intelligence, GI)とは、法的な理解、推論、意思決定を含む人工知能(AI)のこと。既存のベンチマークは結果指向であり、大規模言語モデル(LLM)の法的なインテリジェンスを体系的に評価することができない。我々は、LLMにおける法GIを評価するための専門家レベルの中国の法定ベンチマークであるLexGeniusを提案する。
論文参考訳（メタデータ） (2025-12-04T08:48:02Z)
Impacts of Continued Legal Pre-Training and IFT on LLMs' Latent Representations of Human-Defined Legal Concepts [0.0]
我々は、人間定義の法的概念を含む、最近のAI & Lawから7つの異なるテキストシーケンスを調査した。そこで,本研究では,人間の法的知識の構造に対応する新たな注意パターンを導入したかどうかを検証し,生の注意点変化パターンを可視化した。本調査により,(1) 法的訓練の効果は, 法的概念に不均一に分散し, (2) 法的訓練で学んだ法的知識の文脈表現は, 法的概念の構造と一致しないことが明らかとなった。
論文参考訳（メタデータ） (2024-10-15T19:06:14Z)
SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain [12.773032988758844]
法分野に特化した2つの大規模言語モデル (LLM) である SaulLM-54B と SaulLM-141B を紹介する。 SaulLM-54BとSaulLM-141Bの開発は、大規模ドメイン適応によって導かれる。第2段階と第3段階の合成データの統合により、モデルの能力が向上する。
論文参考訳（メタデータ） (2024-07-28T20:50:53Z)
InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。 InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文参考訳（メタデータ） (2024-06-21T06:19:03Z)
FLawN-T5: An Empirical Examination of Effective Instruction-Tuning Data Mixtures for Legal Reasoning [47.001169623840354]
LawInstructは17の管轄区域、24の言語、合計12万のサンプルをカバーする大規模な法的命令データセットである。ドメイン固有の事前学習と指導訓練がLegalBenchの性能を向上させることを示す。 LawInstructは、より強力な情報処理と法的領域における意思決定能力を備えたモデルの開発を促進するためのリソースである。
論文参考訳（メタデータ） (2024-04-02T17:33:34Z)
D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。 7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。 FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文参考訳（メタデータ） (2024-02-12T04:50:31Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
BLT: Can Large Language Models Handle Basic Legal Text? [44.89873147675516]
GPT-4とClaudeは、基本的な法的テキスト処理では性能が良くない。ベンチマークの粗悪なパフォーマンスは、法的慣行の信頼性を疑うものだ。トレーニングセットの微調整は、小さなモデルでもほぼ完璧なパフォーマンスをもたらす。
論文参考訳（メタデータ） (2023-11-16T09:09:22Z)
Large Language Models are legal but they are not: Making the case for a powerful LegalLLM [0.0]
最近のLarge Language Models(LLMs)の急増は、法的領域にNLPを適用する新たな機会を提供し始めている。契約条件分類のためのLexGLUEベンチマークのLEDGARサブセットにおける汎用LLM(ChatGPT-20b, LLaMA-2-70b, Falcon-180b)のゼロショット性能を比較した。 LLMは法的なデータで明示的に訓練されていないが、ほとんどの場合、そのテーマを正しく分類することが可能である。
論文参考訳（メタデータ） (2023-11-15T11:50:10Z)
A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。 GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文参考訳（メタデータ） (2023-10-18T07:38:04Z)
Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文参考訳（メタデータ） (2021-05-09T09:39:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。