Fugu-MT 論文翻訳(概要): A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction

論文の概要: A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction

arxiv url: http://arxiv.org/abs/2310.11761v1
Date: Wed, 18 Oct 2023 07:38:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 17:27:16.098391
Title: A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction
Title（参考訳）: 法的判断予測に基づく大規模言語モデルの包括的評価
Authors: Ruihao Shui, Yixin Cao, Xiang Wang and Tat-Seng Chua
Abstract要約: 大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。 GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
参考スコア（独自算出の注目度）: 60.70089334782383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated great potential for domain-specific applications, such as the law domain. However, recent disputes over GPT-4's law evaluation raise questions concerning their performance in real-world legal tasks. To systematically investigate their competency in the law, we design practical baseline solutions based on LLMs and test on the task of legal judgment prediction. In our solutions, LLMs can work alone to answer open questions or coordinate with an information retrieval (IR) system to learn from similar cases or solve simplified multi-choice questions. We show that similar cases and multi-choice options, namely label candidates, included in prompts can help LLMs recall domain knowledge that is critical for expertise legal reasoning. We additionally present an intriguing paradox wherein an IR system surpasses the performance of LLM+IR due to limited gains acquired by weaker LLMs from powerful IR systems. In such cases, the role of LLMs becomes redundant. Our evaluation pipeline can be easily extended into other tasks to facilitate evaluations in other domains. Code is available at https://github.com/srhthu/LM-CompEval-Legal
Abstract（参考訳）: 大規模言語モデル(LLM)は、法律ドメインのようなドメイン固有のアプリケーションに大きな可能性を示している。しかし、近年のGPT-4の法律評価をめぐる論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。法律におけるその能力を体系的に調査するために,llmに基づく実用的なベースラインソリューションを設計し,法的判断予測のタスクをテストする。我々のソリューションでは、llmは単独でオープン質問に答えるか、情報検索(ir)システムと協調して類似したケースから学ぶか、あるいは単純化されたマルチチョイス問題を解くことができる。同様のケースやマルチチョイスオプション、すなわちプロンプトに含まれるラベル候補は、専門知識の法的推論に不可欠なドメイン知識をllmが思い出すのに役立つことを示す。さらに、強力なIRシステムから弱いLLMが獲得した限られた利得により、IRシステムがLLM+IRの性能を上回る興味深いパラドックスを提示する。このような場合、LLMの役割は冗長になる。評価パイプラインは、他の領域での評価を容易にするために、簡単に他のタスクに拡張できる。コードはhttps://github.com/srhthu/LM-CompEval-Legalで入手できる。

関連論文リスト

J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain [12.550611136062722]
本稿では,ロバストネステストのための法的な知識注入攻撃法を提案する。本フレームワークの目的は,LLMが法的タスクを遂行する際の演能的推論を行うかどうかを検討することである。我々は、法律の専門家が現実世界の司法判断で犯す可能性のある誤りを収集した。
論文参考訳（メタデータ） (2025-03-24T05:42:05Z)
Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文参考訳（メタデータ） (2025-02-08T19:49:32Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods [21.601196380989542]
「LLMs-as-judges」は自然言語応答に基づく評価器である。本稿では,5つの重要な視点から'LLMs-as-judges'パラダイムを包括的に調査する。我々は,研究と実践の両方において,'LLMs-as-judges'の開発と適用に関する洞察を提供することを目的としている。
論文参考訳（メタデータ） (2024-12-07T08:07:24Z)
Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration [27.047809869136458]
大きな言語モデル(LLM)は、法的理論を完全に理解し、法的推論タスクを実行するのに苦労する可能性がある。法理論と推論能力に対するLLMの理解をよりよく評価するための課題(電荷予測の解釈)を導入する。複雑な法的推論機能を改善するためのマルチエージェントフレームワークも提案する。
論文参考訳（メタデータ） (2024-10-03T14:15:00Z)
Knowledge-Infused Legal Wisdom: Navigating LLM Consultation through the Lens of Diagnostics and Positive-Unlabeled Reinforcement Learning [19.55121050697779]
本稿では、適応型弁護士のような診断質問を利用して、追加の事例情報を収集する診断法大言語モデル(D3LM)を提案する。 D3LMは、革新的なグラフベースのPositive-Unlabeled Reinforcement Learning (PURL)アルゴリズムを導入し、批判的な質問を生成する。また,米国事例法データベースに基づく新たな英語CVGデータセットも導入した。
論文参考訳（メタデータ） (2024-06-05T19:47:35Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Exploring the Nexus of Large Language Models and Legal Systems: A Short Survey [1.0770079992809338]
LLM(Large Language Models)の能力は、法律分野におけるユニークな役割をますます示している。この調査は、法的テキスト理解、事例検索、分析などのタスクにおけるLLMと法体系の相乗効果について考察する。この調査では、さまざまな法律システム用に調整された微調整された法的なLLMの最新の進歩と、さまざまな言語で微調整されたLLMのための法的なデータセットが紹介されている。
論文参考訳（メタデータ） (2024-04-01T08:35:56Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文参考訳（メタデータ） (2023-10-09T11:19:55Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence [5.07013500385659]
本稿では,税法の適用におけるLarge Language Models(LLM)の機能について考察する。実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を実証した。発見は、特に拡張の促進と正しい法的文書と組み合わせることで、高いレベルの精度で実行可能であるが、専門家の税務弁護士レベルではまだ実行できないことを示している。
論文参考訳（メタデータ） (2023-06-12T12:40:48Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。