論文の概要: LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text
- arxiv url: http://arxiv.org/abs/2505.24826v1
- Date: Fri, 30 May 2025 17:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.098104
- Title: LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text
- Title(参考訳): LegalEval-Q: LLM生成法文の品質評価のための新しいベンチマーク
- Authors: Li yunhan, Wu gengshen,
- Abstract要約: 我々は,明快さ,コヒーレンス,用語に基づく法文の質を評価する回帰モデルを構築した。
まず、モデルの品質レベルが14億のパラメータから外れ、限界的な改善は72億のパラメータで2.7%だけである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly used in legal applications, current evaluation benchmarks tend to focus mainly on factual accuracy while largely neglecting important linguistic quality aspects such as clarity, coherence, and terminology. To address this gap, we propose three steps: First, we develop a regression model to evaluate the quality of legal texts based on clarity, coherence, and terminology. Second, we create a specialized set of legal questions. Third, we analyze 49 LLMs using this evaluation framework. Our analysis identifies three key findings: First, model quality levels off at 14 billion parameters, with only a marginal improvement of $2.7\%$ noted at 72 billion parameters. Second, engineering choices such as quantization and context length have a negligible impact, as indicated by statistical significance thresholds above 0.016. Third, reasoning models consistently outperform base architectures. A significant outcome of our research is the release of a ranking list and Pareto analysis, which highlight the Qwen3 series as the optimal choice for cost-performance tradeoffs. This work not only establishes standardized evaluation protocols for legal LLMs but also uncovers fundamental limitations in current training data refinement approaches. Code and models are available at: https://github.com/lyxx3rd/LegalEval-Q.
- Abstract(参考訳): 大規模言語モデル (LLMs) が法的な応用にますます使われるようになるにつれて、現在の評価ベンチマークは主に事実の正確さに焦点を合わせ、明確さ、コヒーレンス、用語学といった重要な言語品質の側面を無視する傾向にある。
このギャップに対処するために、まず、明快さ、コヒーレンス、用語に基づく法文の質を評価する回帰モデルを開発する。
第2に,専門的な法的質問のセットを作成します。
第3に、この評価フレームワークを用いて49個のLCMを解析する。
まず、モデル品質レベルが14億のパラメータから外れ、限界値が2.7%のパラメータが72億のパラメータで記録されるのみである。
第二に、量子化やコンテキスト長といった工学的な選択は、0.016以上の統計的重要性閾値によって示されるように、無視できる影響を持つ。
第三に、推論モデルはベースアーキテクチャよりも一貫して優れています。
我々の研究の大きな成果は、Qwen3シリーズをコストパフォーマンストレードオフの最適な選択肢として挙げたランキングリストとPareto分析のリリースである。
この研究は、法的LLMの標準化された評価プロトコルを確立するだけでなく、現在のトレーニングデータ修正アプローチの基本的な制限を明らかにする。
コードとモデルは、https://github.com/lyxx3rd/LegalEval-Q.comで入手できる。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Identifying Legal Holdings with LLMs: A Systematic Study of Performance, Scale, and Memorization [0.0]
現代大言語モデル(LLM)の性能を評価するための一連の実験について述べる。
このタスクのパフォーマンスはモデルのサイズによって改善されます。
事例名や引用が事実であることを保証しながら意味的意味を保った新しい引用匿名化テストを利用する。
論文 参考訳(メタデータ) (2025-05-04T16:24:12Z) - SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals [51.60874286674908]
我々は、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問応答(QA)の性能を予測することを目指している。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を線形に相関する情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。