Fugu-MT 論文翻訳(概要): BLT: Can Large Language Models Handle Basic Legal Text?

論文の概要: BLT: Can Large Language Models Handle Basic Legal Text?

arxiv url: http://arxiv.org/abs/2311.09693v1
Date: Thu, 16 Nov 2023 09:09:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:34:54.318584
Title: BLT: Can Large Language Models Handle Basic Legal Text?
Title（参考訳）: BLT: 大規模言語モデルは基本法文を扱えるか?
Authors: Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme
Abstract要約: GPT-4 と PaLM 2 は弁護士や法務官に必要な基本的なテキスト処理では不十分である。このことは、LLMsの現在の信頼性が法的慣行に当てはまることに疑いを抱く。
参考スコア（独自算出の注目度）: 50.46167465931653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We find that the best publicly available LLMs like GPT-4 and PaLM 2 currently perform poorly at basic text handling required of lawyers or paralegals, such as looking up the text at a line of a witness deposition or at a subsection of a contract. We introduce a benchmark to quantify this poor performance, which casts into doubt LLMs' current reliability as-is for legal practice. Finetuning for these tasks brings an older LLM to near-perfect performance on our test set and also raises performance on a related legal task. This stark result highlights the need for more domain expertise in LLM training.
Abstract（参考訳）: GPT-4 や PaLM 2 のような公開可能な LLM は、現在、証人の供述の行や契約のサブセクションでテキストを検索するなど、弁護士や法務官が必要とする基本的なテキストハンドリングでは不十分である。この性能の低下を定量的に評価するためのベンチマークを導入し、LLMの現在の信頼性が法的実践に欠かせないことを疑う。これらのタスクの微調整は、テストセットのほぼ完全なパフォーマンスに古いllmをもたらし、関連する法的タスクのパフォーマンスも向上します。この大きな成果は、LLMトレーニングにおけるより多くのドメイン専門知識の必要性を浮き彫りにする。

関連論文リスト

Better Benchmarking LLMs for Zero-Shot Dependency Parsing [18.079016557290338]
本稿では,現在最先端のオープンウェイトLLMを,入力文にアクセスできないベースラインと比較することによって検討する。その結果, 試験されたLLMのほとんどは, 最良の非インフォームベースラインを達成できないことがわかった。
論文参考訳（メタデータ） (2025-02-28T09:08:57Z)
Traditional Methods Outperform Generative LLMs at Forecasting Credit Ratings [17.109522466982476]
大規模言語モデル(LLM)は多くの下流タスクでうまく機能することが示されている。本稿では,企業信用格付け予測におけるLCMの業績について検討する。
論文参考訳（メタデータ） (2024-07-24T20:30:55Z)
InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。 InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文参考訳（メタデータ） (2024-06-21T06:19:03Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Better Call GPT, Comparing Large Language Models Against Lawyers [0.0]
本稿では,契約審査において,大規模言語モデルが人間の精度,速度,コスト効率を上回りうるかどうかを論じる。スピードでは、LSMは人間に必要な時間を取り除き、ほんの数秒でレビューを完了します。コスト面では、LSMは価格のごく一部で運用されており、従来の方法よりも99.97パーセントのコスト削減を実現している。
論文参考訳（メタデータ） (2024-01-24T03:53:28Z)
Large Language Models are legal but they are not: Making the case for a powerful LegalLLM [0.0]
最近のLarge Language Models(LLMs)の急増は、法的領域にNLPを適用する新たな機会を提供し始めている。契約条件分類のためのLexGLUEベンチマークのLEDGARサブセットにおける汎用LLM(ChatGPT-20b, LLaMA-2-70b, Falcon-180b)のゼロショット性能を比較した。 LLMは法的なデータで明示的に訓練されていないが、ほとんどの場合、そのテーマを正しく分類することが可能である。
論文参考訳（メタデータ） (2023-11-15T11:50:10Z)
LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2023-11-14T01:38:02Z)
A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。 GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文参考訳（メタデータ） (2023-10-18T07:38:04Z)
LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文参考訳（メタデータ） (2023-09-28T09:35:59Z)
Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができるこの研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文参考訳（メタデータ） (2023-04-12T17:33:28Z)
Legal Prompt Engineering for Multilingual Legal Judgement Prediction [2.539568419434224]
Legal Prompt Engineering (LPE) または Legal Prompting は、大規模言語モデル (LLM) を指導し、支援するプロセスである。欧州人権裁判所(英語)及びスイス連邦最高裁判所(ドイツ語・フランス語・イタリア語)の事例文におけるゼロショットLPEの性能について検討する。
論文参考訳（メタデータ） (2022-12-05T12:17:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。