論文の概要: BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law
- arxiv url: http://arxiv.org/abs/2605.28183v1
- Date: Wed, 27 May 2026 09:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.917504
- Title: BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law
- Title(参考訳): BenGER:ドイツの法律における仮定に基づく法的推論に関するLLMシステムのベンチマーク
- Authors: Sebastian Nagl, Ann-Kristin Mayrhofer, Martin Heidebach, Aleyna Koçak, Anne Zettelmeier, Elly Breu, Angelina Greiner, Sofija Milijas, Matthias Grabmair,
- Abstract要約: BenGERデータセットは、複数のレベルの法学教育にまたがる596の試験スタイルのフリーテキストの訴訟タスクと、531の短い教義的推論タスクの3つのコンポーネントで構成されている。
12の現代LLMシステム – クローズドフラッグシップ,効率指向,オープンウェイト – を,自動および判断に基づくメトリクスで評価する。
- 参考スコア(独自算出の注目度): 6.248207831601117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the BenGER (Benchmark for German Law) dataset for evaluating LLM systems on subsumption-based legal reasoning in German law. The BenGER dataset consists of three components: 596 exam-style free-text legal case tasks across multiple levels of legal education and 531 short doctrinal reasoning tasks. We evaluate 12 contemporary LLM systems -- closed flagship, efficiency-oriented, and open-weight -- across automatic and judge-based metrics. On a controlled validation subset of timed human-written solutions under both unaided and human--AI co-creation conditions, we contextualise model performance against these human baselines. We introduce a rubric-aligned LLM-as-a-Judge framework cross-validated against a multi-rater human-grading protocol (three blind reviews plus one author-informed creator review per solution). Our results show that replacing a blind human reviewer with the LLM judge degrades agreement with the full human pool no more than removing that reviewer altogether (Calderon r=0.96 vs.~r=0.96, matched n=30), that closed-flagship systems lead the leaderboard across all corpora, and that human--AI co-creation substantially outperforms unaided human work.
- Abstract(参考訳): 本稿では,ドイツ法における仮定に基づく法理に基づくLLMシステム評価のためのBenGERデータセットについて紹介する。
BenGERデータセットは、複数のレベルの法学教育にまたがる596の試験スタイルのフリーテキストの訴訟タスクと、531の短い教義的推論タスクの3つのコンポーネントで構成されている。
12の現代LLMシステム – クローズドフラッグシップ,効率指向,オープンウェイト – を,自動および判断に基づくメトリクスで評価する。
本研究では,人間とAIの両共創条件下でのタイムド・ヒューマン・ライティング・ソリューションの制御された検証サブセットについて,これらのベースラインに対して,モデル性能を文脈的に評価する。
我々は,マルチレータなヒューマングレーディングプロトコル(ブラインドレビュー3件,クリエーターによるソリューション毎のレビュー1件)に対して相互に検証した,ルーリックなLCM-as-a-Judgeフレームワークを紹介した。
以上の結果から, 視覚障害者とLLM審判員との合意は, 完全ヒトプールとの合意を全面的に解消する(Calderon r=0.96 vs.~r=0.96, matched n=30)に留まらず, クローズドフラッグシップシステムは全コーパスをまたいでリーダーボードをリードし, 人間-AI共同創造は, 人間の作業に大きく勝っていることが示唆された。
関連論文リスト
- Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities [15.35489310097019]
CLAUSE は LLM の法的な推論の脆弱性を評価するために設計された第一種ベンチマークである。
我々の研究は、法的AIにおけるそのような推論失敗を特定し、修正する道筋を概説している。
論文 参考訳(メタデータ) (2025-11-01T00:51:21Z) - GreekBarBench: A Challenging Benchmark for Free-Text Legal Reasoning and Citations [31.12944317978129]
ギリシャ・バーベンチは、ギリシャ・バーの試験と異なる5つの法分野の法的問題に関するLLMを評価するベンチマークである。
自由テキスト評価の課題に対処するために,LLM-as-a-judgeアプローチと組み合わせた3次元スコアリングシステムを提案する。
論文 参考訳(メタデータ) (2025-05-22T20:24:17Z) - Validating LLM-as-a-Judge Systems under Rating Indeterminacy [65.137380612741]
評価の不確定性の下でLLM-as-a-judgeシステムを検証するための枠組みを提案する。
本研究では, 強制選択評価指示に応答する際の評価の不確定性を人間とLLMがどう解決するかの相違が, 偏見の検証に大きく寄与することを示した。
論文 参考訳(メタデータ) (2025-03-07T22:09:47Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.822535662755314]
大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。
提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。
人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。