論文の概要: LeXFiles and LegalLAMA: Facilitating English Multinational Legal
Language Model Development
- arxiv url: http://arxiv.org/abs/2305.07507v2
- Date: Mon, 22 May 2023 18:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:25:29.388246
- Title: LeXFiles and LegalLAMA: Facilitating English Multinational Legal
Language Model Development
- Title(参考訳): lexfiles と legallama: 英語の多国間法的言語モデル開発を促進する
- Authors: Ilias Chalkidis, Nicolas Garneau, Catalina Goanta, Daniel Martin Katz,
Anders S{\o}gaard
- Abstract要約: 法律指向事前学習言語モデル(PLM)の性能に関する詳細な分析を行う。
本研究は, 本来の目的, 獲得した知識, 法的言語理解能力の相互作用について検討する。
関連する法的トピックにおいて,提案性能は上流のパフォーマンスと強く相関していることが判明した。
- 参考スコア(独自算出の注目度): 8.931169262582442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we conduct a detailed analysis on the performance of
legal-oriented pre-trained language models (PLMs). We examine the interplay
between their original objective, acquired knowledge, and legal language
understanding capacities which we define as the upstream, probing, and
downstream performance, respectively. We consider not only the models' size but
also the pre-training corpora used as important dimensions in our study. To
this end, we release a multinational English legal corpus (LeXFiles) and a
legal knowledge probing benchmark (LegalLAMA) to facilitate training and
detailed analysis of legal-oriented PLMs. We release two new legal PLMs trained
on LeXFiles and evaluate them alongside others on LegalLAMA and LexGLUE. We
find that probing performance strongly correlates with upstream performance in
related legal topics. On the other hand, downstream performance is mainly
driven by the model's size and prior legal knowledge which can be estimated by
upstream and probing performance. Based on these findings, we can conclude that
both dimensions are important for those seeking the development of
domain-specific PLMs.
- Abstract(参考訳): 本研究では,法律指向型事前学習言語モデル(PLM)の性能に関する詳細な分析を行う。
本研究は, 従来の目的, 獲得した知識, および上流, 探索, 下流のパフォーマンスと定義する法的言語理解能力の相互作用について検討する。
我々は,モデルのサイズだけでなく,学習前のコーパスも重要な次元として捉えている。
この目的のために,多国籍英語法定コーパス (lexfiles) と法知識調査ベンチマーク (legallama) をリリースし,法指向plmの訓練と詳細な分析を容易にする。
我々は、LeXFilesで訓練された2つの新しい法的PLMをリリースし、LegalLAMAとLexGLUEでそれらを評価した。
関連する法的トピックにおける上流のパフォーマンスと相関性が強いことが判明した。
一方、下流のパフォーマンスは、主にモデルのサイズと、上流と調査のパフォーマンスによって推定できる事前の法的知識によって駆動される。
これらの結果から,ドメイン固有のPLMの開発に両次元が重要であると結論付けることができる。
関連論文リスト
- Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - Developing a Pragmatic Benchmark for Assessing Korean Legal Language Understanding in Large Language Models [7.797885529152412]
大規模言語モデル (LLM) は法域において顕著な性能を示した。
しかし、その効力は英語以外の言語における非標準化されたタスクやタスクに限られている。
このことは、適用前に各法体系内でのLCMの慎重な評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-11T11:41:02Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Large Language Models as Tax Attorneys: A Case Study in Legal
Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。
実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。
発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文 参考訳(メタデータ) (2023-06-12T12:40:48Z) - LexGLUE: A Benchmark Dataset for Legal Language Understanding in English [15.026117429782996]
我々は,多種多様なNLUタスクのモデル性能を評価するためのデータセットの集合であるLexGLUEベンチマークを紹介する。
また、複数の汎用的および法的指向モデルの評価と分析を行い、後者が複数のタスクにまたがるパフォーマンス改善を一貫して提供することを示した。
論文 参考訳(メタデータ) (2021-10-03T10:50:51Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。