論文の概要: LeMAJ (Legal LLM-as-a-Judge): Bridging Legal Reasoning and LLM Evaluation
- arxiv url: http://arxiv.org/abs/2510.07243v1
- Date: Wed, 08 Oct 2025 17:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.654643
- Title: LeMAJ (Legal LLM-as-a-Judge): Bridging Legal Reasoning and LLM Evaluation
- Title(参考訳): LeMAJ(Legal LLM-as-a-Judge):ブリッジ法理推論とLCM評価
- Authors: Joseph Enguehard, Morgane Van Ermengem, Kate Atkinson, Sujeong Cha, Arijit Ghosh Chowdhury, Prashanth Kallur Ramaswamy, Jeremy Roghair, Hannah R Marlowe, Carina Suzana Negreanu, Kitty Boxall, Diana Mincu,
- Abstract要約: 本稿では,弁護士が法的回答をどのように評価するかを反映した,新たな基準フリー評価手法を提案する。
提案手法は,人間の専門家による評価とより密接に関連し,アノテーション間合意の改善に有効であることを示す。
- 参考スコア(独自算出の注目度): 6.783926395409993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language model (LLM) outputs in the legal domain presents unique challenges due to the complex and nuanced nature of legal analysis. Current evaluation approaches either depend on reference data, which is costly to produce, or use standardized assessment methods, both of which have significant limitations for legal applications. Although LLM-as-a-Judge has emerged as a promising evaluation technique, its reliability and effectiveness in legal contexts depend heavily on evaluation processes unique to the legal industry and how trustworthy the evaluation appears to the human legal expert. This is where existing evaluation methods currently fail and exhibit considerable variability. This paper aims to close the gap: a) we break down lengthy responses into 'Legal Data Points' (LDPs), self-contained units of information, and introduce a novel, reference-free evaluation methodology that reflects how lawyers evaluate legal answers; b) we demonstrate that our method outperforms a variety of baselines on both our proprietary dataset and an open-source dataset (LegalBench); c) we show how our method correlates more closely with human expert evaluations and helps improve inter-annotator agreement; and finally d) we open source our Legal Data Points for a subset of LegalBench used in our experiments, allowing the research community to replicate our results and advance research in this vital area of LLM evaluation on legal question-answering.
- Abstract(参考訳): 法域における大規模言語モデル(LLM)のアウトプットの評価は、法解析の複雑で曖昧な性質のため、独特な課題を提起する。
現在の評価手法は、作成にコストがかかる参照データに依存するか、標準化された評価手法を使用するかのいずれかであり、どちらも法的な応用に重大な制限がある。
LLM-as-a-Judgeは有望な評価手法として登場したが、法的文脈における信頼性と有効性は、法律業界固有の評価プロセスと、その評価が人間法専門家にとっていかに信頼できるかに大きく依存している。
ここでは、既存の評価手法が失敗し、かなりのばらつきを示す。
本稿では,そのギャップを埋めることを目的とする。
a) 長大な対応を自己完結した情報単位である「リアルデータポイント」(LDP)に分解し、弁護士が法的回答をどう評価するかを反映した、新しい基準のない評価手法を導入する。
b)当社の手法は,プロプライエタリなデータセットとオープンソースデータセット(LegalBench)の両方において,さまざまなベースラインを上回ります。
c) 提案手法が人間の専門家による評価とどのように密接に関連しているかを示し, アノテーション間の合意の改善に寄与する。
d) 本実験で用いた法定ベンチのサブセットについて, 法定データポイントをオープンソース化し, 研究コミュニティが本研究結果を再現し, 法定質問応答におけるLLM評価の重要領域について研究を進めることができるようにした。
関連論文リスト
- GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。
既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。
GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文 参考訳(メタデータ) (2025-08-22T13:38:12Z) - LLMs for Legal Subsumption in German Employment Contracts [3.3916160303055567]
本研究では,ドイツの雇用契約における節の合法性を評価するために,大規模言語モデルと文脈内学習の利用について検討する。
我々の研究は、異なるLLMが3つの法的文脈変化の下で、節を「無効」、「不公平」、または「ボイド」に分類する能力を評価する。
その結果,全文ソースでは性能が適度に向上し,検査ガイドラインでは空白節のリコールや重み付きF1スコアが80%に向上した。
論文 参考訳(メタデータ) (2025-07-02T14:07:54Z) - NitiBench: A Comprehensive Study of LLM Framework Capabilities for Thai Legal Question Answering [6.789538656798745]
本稿では、タイの一般的な金融法を網羅するニチベンチ-CCLと、現実の税法ケースを含むニチベンチ-タックスの2つのデータセットからなるベンチマークであるニチベンチを紹介する。
検索強化世代(RAG)と長文LLMに基づく3つの重要な研究課題に対処するためのアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-15T17:52:14Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - Leveraging Large Language Models for Relevance Judgments in Legal Case Retrieval [16.29803062332164]
本稿では,大規模言語モデルによる専門家による関連判断の生成を支援する,数ショットのアプローチを提案する。
提案手法は,人間のアノテータのワークフローを模倣して,判断過程をいくつかの段階に分解する。
また、解釈可能なデータラベリングを保証し、関連性評価プロセスにおける透明性と明確性を提供します。
論文 参考訳(メタデータ) (2024-03-27T09:46:56Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。