論文の概要: A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction
- arxiv url: http://arxiv.org/abs/2310.11761v1
- Date: Wed, 18 Oct 2023 07:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:27:16.098391
- Title: A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction
- Title(参考訳): 法的判断予測に基づく大規模言語モデルの包括的評価
- Authors: Ruihao Shui, Yixin Cao, Xiang Wang and Tat-Seng Chua
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
- 参考スコア(独自算出の注目度): 60.70089334782383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated great potential for
domain-specific applications, such as the law domain. However, recent disputes
over GPT-4's law evaluation raise questions concerning their performance in
real-world legal tasks. To systematically investigate their competency in the
law, we design practical baseline solutions based on LLMs and test on the task
of legal judgment prediction. In our solutions, LLMs can work alone to answer
open questions or coordinate with an information retrieval (IR) system to learn
from similar cases or solve simplified multi-choice questions. We show that
similar cases and multi-choice options, namely label candidates, included in
prompts can help LLMs recall domain knowledge that is critical for expertise
legal reasoning. We additionally present an intriguing paradox wherein an IR
system surpasses the performance of LLM+IR due to limited gains acquired by
weaker LLMs from powerful IR systems. In such cases, the role of LLMs becomes
redundant. Our evaluation pipeline can be easily extended into other tasks to
facilitate evaluations in other domains. Code is available at
https://github.com/srhthu/LM-CompEval-Legal
- Abstract(参考訳): 大規模言語モデル(LLM)は、法律ドメインのようなドメイン固有のアプリケーションに大きな可能性を示している。
しかし、近年のGPT-4の法律評価をめぐる論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
法律におけるその能力を体系的に調査するために,llmに基づく実用的なベースラインソリューションを設計し,法的判断予測のタスクをテストする。
我々のソリューションでは、llmは単独でオープン質問に答えるか、情報検索(ir)システムと協調して類似したケースから学ぶか、あるいは単純化されたマルチチョイス問題を解くことができる。
同様のケースやマルチチョイスオプション、すなわちプロンプトに含まれるラベル候補は、専門知識の法的推論に不可欠なドメイン知識をllmが思い出すのに役立つことを示す。
さらに、強力なIRシステムから弱いLLMが獲得した限られた利得により、IRシステムがLLM+IRの性能を上回る興味深いパラドックスを提示する。
このような場合、LLMの役割は冗長になる。
評価パイプラインは、他の領域での評価を容易にするために、簡単に他のタスクに拡張できる。
コードはhttps://github.com/srhthu/LM-CompEval-Legalで入手できる。
関連論文リスト
- Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems [80.54551166283805]
本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。
この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - BLT: Can Large Language Models Handle Basic Legal Text? [50.46167465931653]
GPT-4、Claude、PaLM 2は基本的な法的テキスト処理では性能が良くない。
これらのタスクの微調整は、テストセット上でのほぼ完全なパフォーマンスにさらに小さなモデルをもたらします。
論文 参考訳(メタデータ) (2023-11-16T09:09:22Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for
Themselves [63.33254282051988]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - LawBench: Benchmarking Legal Knowledge of Large Language Models [35.2812008533622]
大規模言語モデル(LLM)は様々な面で強力な能力を示している。
法的知識がどの程度あるか、そして法的関連タスクを確実に実行できるかは不明だ。
ローベンチは、3つの認知レベルからLLMの法的な能力を正確に評価するために細心の注意を払って設計されている。
論文 参考訳(メタデータ) (2023-09-28T09:35:59Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Large Language Models as Tax Attorneys: A Case Study in Legal
Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。
実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。
発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文 参考訳(メタデータ) (2023-06-12T12:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。