論文の概要: LegalBench: A Collaboratively Built Benchmark for Measuring Legal
Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2308.11462v1
- Date: Sun, 20 Aug 2023 22:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:48:23.199106
- Title: LegalBench: A Collaboratively Built Benchmark for Measuring Legal
Reasoning in Large Language Models
- Title(参考訳): legalbench: 大きな言語モデルで法的推論を測定するための共同開発したベンチマーク
- Authors: Neel Guha, Julian Nyarko, Daniel E. Ho, Christopher R\'e, Adam
Chilton, Aditya Narayana, Alex Chohlas-Wood, Austin Peters, Brandon Waldon,
Daniel N. Rockmore, Diego Zambrano, Dmitry Talisman, Enam Hoque, Faiz Surani,
Frank Fagan, Galit Sarfaty, Gregory M. Dickinson, Haggai Porat, Jason
Hegland, Jessica Wu, Joe Nudell, Joel Niklaus, John Nay, Jonathan H. Choi,
Kevin Tobia, Margaret Hagan, Megan Ma, Michael Livermore, Nikon Rasumov-Rahe,
Nils Holzenberger, Noam Kolt, Peter Henderson, Sean Rehaag, Sharad Goel,
Shang Gao, Spencer Williams, Sunny Gandhi, Tom Zur, Varun Iyer, and Zehua Li
- Abstract要約: LegalBenchは6種類の法的推論をカバーする162のタスクからなるベンチマークである。
本稿では、LegalBenchについて述べるとともに、20のオープンソースおよび商用LCMの実証的な評価を行い、LegalBenchがもたらす研究のタイプについて説明する。
- 参考スコア(独自算出の注目度): 15.98468948605927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of large language models (LLMs) and their adoption by the legal
community has given rise to the question: what types of legal reasoning can
LLMs perform? To enable greater study of this question, we present LegalBench:
a collaboratively constructed legal reasoning benchmark consisting of 162 tasks
covering six different types of legal reasoning. LegalBench was built through
an interdisciplinary process, in which we collected tasks designed and
hand-crafted by legal professionals. Because these subject matter experts took
a leading role in construction, tasks either measure legal reasoning
capabilities that are practically useful, or measure reasoning skills that
lawyers find interesting. To enable cross-disciplinary conversations about LLMs
in the law, we additionally show how popular legal frameworks for describing
legal reasoning -- which distinguish between its many forms -- correspond to
LegalBench tasks, thus giving lawyers and LLM developers a common vocabulary.
This paper describes LegalBench, presents an empirical evaluation of 20
open-source and commercial LLMs, and illustrates the types of research
explorations LegalBench enables.
- Abstract(参考訳): 大規模言語モデル(LLMs)の出現と法的なコミュニティによる採用は、LLMがどのような法的理由付けを行うことができるのかという疑問を引き起こしている。
この問題をより深く研究するために,6種類の法的推論をカバーする162のタスクからなる共同構築された法的推論ベンチマークであるLegalBenchを提案する。
legalbenchは、法務専門家が設計し、手作りのタスクを収集する、学際的なプロセスを通じて構築されました。
これらの主題の専門家は建設において主導的な役割を担っていたため、実質的に有用な法的推論能力を測定するか、弁護士が興味深いと思う推論スキルを測定するかのどちらかである。
法律におけるLLMに関する学際的な会話を可能にするために、法的な推論を記述するための一般的な法的枠組みが、その多くの形態を区別する)LegalBenchタスクとどのように対応するかを示す。
本稿では legalbench について述べるとともに,オープンソースおよび商用の llm 20 について実証的な評価を行い, legalbench が実現可能な研究形態について述べる。
関連論文リスト
- Leveraging Large Language Models for Learning Complex Legal Concepts
through Storytelling [44.30097472877668]
我々は,非専門家がストーリーテリングを通じて複雑な法的概念を学ぶのを支援するために,法律教育における大規模言語モデル(LLM)の新たな応用法を提案する。
295の複雑な法的教義からなり、それぞれに物語と複数の選択肢の質問が伴う。
LLMが生成した物語は、定義のみに比較して、法的概念の理解と、非ネイティブ話者間の法律への関心を高めることが判明した。
論文 参考訳(メタデータ) (2024-02-26T20:56:06Z) - BLT: Can Large Language Models Handle Basic Legal Text? [50.46167465931653]
GPT-4、Claude、PaLM 2は基本的な法的テキスト処理では性能が良くない。
これらのタスクの微調整は、テストセット上でのほぼ完全なパフォーマンスにさらに小さなモデルをもたらします。
論文 参考訳(メタデータ) (2023-11-16T09:09:22Z) - Can ChatGPT Perform Reasoning Using the IRAC Method in Analyzing Legal
Scenarios Like a Lawyer? [14.103170412148584]
IRAC法によるコーパスの解析にChatGPTを適用した。
コーパス内の各シナリオは、半構造化形式で完全なIRAC分析で注釈付けされる。
また, IRAC分析におけるChatGPTの初回評価を行い, 法的専門職の分析との整合性について検討した。
論文 参考訳(メタデータ) (2023-10-23T12:51:49Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z) - Large Language Models as Tax Attorneys: A Case Study in Legal
Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。
実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。
発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文 参考訳(メタデータ) (2023-06-12T12:40:48Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - A Short Survey of Viewing Large Language Models in Legal Aspect [0.0]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、強化学習など、多くの分野に変化をもたらした。
LLMの法的分野への統合は、プライバシーの懸念、偏見、説明可能性など、いくつかの法的問題を引き起こしている。
論文 参考訳(メタデータ) (2023-03-16T08:01:22Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - How Does NLP Benefit Legal System: A Summary of Legal Artificial
Intelligence [81.04070052740596]
法律人工知能(Legal AI)は、人工知能、特に自然言語処理の技術を適用して、法的領域におけるタスクに役立てることに焦点を当てている。
本稿では,LegalAIにおける研究の歴史,現状,今後の方向性について紹介する。
論文 参考訳(メタデータ) (2020-04-25T14:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。