論文の概要: GradeLegal: Automated Grading for German Legal Cases
- arxiv url: http://arxiv.org/abs/2605.21076v1
- Date: Wed, 20 May 2026 12:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.656545
- Title: GradeLegal: Automated Grading for German Legal Cases
- Title(参考訳): グレードレガル:ドイツ法定患者の自動筆記法
- Authors: Abdullah Al Zubaer, Lorenz Wendlinger, Simon Alexander Nonn, Michael Granitzer, Jelena Mitrovic,
- Abstract要約: グレーディングドイツの司法試験ソリューションは、数量の増加と適格グレーダーの不足に直面している。
この実践的関連性にもかかわらず、文学は法的試験を格付けするための効果的な方法に関する体系的な研究を欠いている。
大規模言語モデル(LLM)が,刑法及び公法におけるドイツの判例ソリューションの自動格付けを支援することができるかどうかを検討する。
- 参考スコア(独自算出の注目度): 3.376444850947719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grading German legal exam solutions faces growing volumes and a shortage of qualified graders, delaying feedback and creating a bottleneck. At the same time, it is a high-stakes expert task, since state exam grades strongly influence career outcomes in Germany. Despite this practical relevance, literature lacks systematic studies on effective methods for grading legal exams. To address this gap, we investigate whether large language models (LLMs) can support the automated grading of German legal case solutions in criminal and public law, thereby enabling scalable feedback and student self-testing. We present a systematic evaluation of 27 proprietary and open-source LLMs, benchmarking prompting strategies that incrementally add task-related information, such as a sample solution and a grading rubric. Using quadratic weighted kappa (QWK), reasoning-oriented LLMs can approximate expert grading in public law when given a sample solution and a grading rubric (up to 0.91), compared to 0.60 in criminal law, suggesting a harder grading task in criminal law. Beyond single-model grading, ensembling improves agreement by up to 0.15 over its best member and can offer an alternative to stronger closed-source single models. In addition, our findings suggest that effective prompt design and model selection are necessary for reliable LLM-based grading of legal exams.
- Abstract(参考訳): ドイツの司法試験ソリューションは、数量の増加と適格グレーダーの不足に直面し、フィードバックを遅らせ、ボトルネックを生み出している。
同時に、国家試験の成績がドイツの職業成績に強く影響するため、高い評価の専門職である。
この実践的関連性にもかかわらず、文学は法的試験を格付けするための効果的な方法に関する体系的な研究を欠いている。
このギャップに対処するために,大規模言語モデル (LLM) が,刑法および公法におけるドイツの訴訟ソリューションの自動格付けを支援することができるかどうかを検証し,スケーラブルなフィードバックと学生の自己検査を可能にする。
本稿では,27のプロプライエタリかつオープンソースのLCMを体系的に評価し,サンプルソリューションやグレーディングルーリックなどのタスク関連情報を段階的に追加するベンチマーク戦略を提案する。
二次重み付きカッパ(QWK)を用いることで、検定指向のLLMは、刑事法では0.60に比較して、サンプル溶液とグレーディングルーリック(最大0.91まで)を与えられた場合、公共法における専門家の格付けを近似することができる。
シングルモデルのグレーディング以外にも、アンサンブルは最高のメンバーに対して最大0.15までの合意を改善し、より強力なクローズドソースシングルモデルの代替を提供することができる。
さらに, 法定試験の信頼性向上には, 効果的な設計・モデル選択が必要であることが示唆された。
関連論文リスト
- PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - LLM-as-a-Judge is Bad, Based on AI Attempting the Exam Qualifying for the Member of the Polish National Board of Appeal [34.008574054602356]
本報告では,公益調達法に関する知識試験と判決書を含む試験の構造について述べる。
いくつかのLCMはクローズドブックと様々なRetrieval-Augmented Generation設定でテストされた。
その結果,本モデルは知識テストで満足度を達成できたが,実用書面の通過しきい値には達しなかった。
論文 参考訳(メタデータ) (2025-11-06T09:11:20Z) - Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities [15.35489310097019]
CLAUSE は LLM の法的な推論の脆弱性を評価するために設計された第一種ベンチマークである。
我々の研究は、法的AIにおけるそのような推論失敗を特定し、修正する道筋を概説している。
論文 参考訳(メタデータ) (2025-11-01T00:51:21Z) - AUTOLAW: Enhancing Legal Compliance in Large Language Models via Case Law Generation and Jury-Inspired Deliberation [5.732271982985626]
AutoLawは、ドメイン固有の大規模言語モデル(LLM)のための新しい違反検出フレームワークである。
LLMの法的コンプライアンスを強化するために、敵対的なデータ生成と陪審に触発された審議プロセスを組み合わせる。
本研究は, 法的不一致を適応的に調査し, 信頼性の高い文脈対応の判断を下すフレームワークの能力を強調した。
論文 参考訳(メタデータ) (2025-05-20T07:09:13Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Aplicação de Large Language Models na Análise e Síntese de Documentos Jurídicos: Uma Revisão de Literatura [0.0]
大規模言語モデル (LLMs) は、法的文書の分析と合成を最適化するためにますます使われている。
本研究の目的は,LLMに適用された技術の現状を法的文脈で把握するために,系統的な文献レビューを行うことである。
論文 参考訳(メタデータ) (2025-04-01T12:34:00Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。