論文の概要: GreekBarBench: A Challenging Benchmark for Free-Text Legal Reasoning and Citations
- arxiv url: http://arxiv.org/abs/2505.17267v1
- Date: Thu, 22 May 2025 20:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.685645
- Title: GreekBarBench: A Challenging Benchmark for Free-Text Legal Reasoning and Citations
- Title(参考訳): GreekBarBench: フリーテキストの法的推論と扇動のためのベンチマーク
- Authors: Odysseas S. Chlapanis, Dimitrios Galanis, Nikolaos Aletras, Ion Androutsopoulos,
- Abstract要約: ギリシャ・バーベンチは、ギリシャ・バーの試験と異なる5つの法分野の法的問題に関するLLMを評価するベンチマークである。
自由テキスト評価の課題に対処するために,LLM-as-a-judgeアプローチと組み合わせた3次元スコアリングシステムを提案する。
- 参考スコア(独自算出の注目度): 40.578140174918836
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce GreekBarBench, a benchmark that evaluates LLMs on legal questions across five different legal areas from the Greek Bar exams, requiring citations to statutory articles and case facts. To tackle the challenges of free-text evaluation, we propose a three-dimensional scoring system combined with an LLM-as-a-judge approach. We also develop a meta-evaluation benchmark to assess the correlation between LLM-judges and human expert evaluations, revealing that simple, span-based rubrics improve their alignment. Our systematic evaluation of 13 proprietary and open-weight LLMs shows that even though the best models outperform average expert scores, they fall short of the 95th percentile of experts.
- Abstract(参考訳): ギリシャ・バーベンチは、ギリシャ・バーの試験と異なる5つの法分野の法的問題に関するLCMを評価し、法定記事や事件事実の引用を必要とするベンチマークである。
自由テキスト評価の課題に対処するために,LLM-as-a-judgeアプローチと組み合わせた3次元スコアリングシステムを提案する。
また, LLM-judges と人間専門家評価の相関性を評価するメタ評価ベンチマークを開発し, 単純でスパンベースのルーリックがアライメントを改善することを明らかにした。
13のプロプライエタリかつオープンウェイトなLCMの体系的評価は、最高のモデルが平均的専門家スコアを上回っているにもかかわらず、専門家の95%に満たないことを示している。
関連論文リスト
- Automatic Legal Writing Evaluation of LLMs [10.74636407144071]
oab-benchは、最近の試験版から7つの分野にわたる105の質問からなるベンチマークである。
Claude-3.5 Sonnetは10点中平均スコア7.93点で21点の試験に合格した。
実験の結果,OpenAIのo1のようなフロンティアモデルでは,承認試験の評価において,人間のスコアと強い相関が得られた。
論文 参考訳(メタデータ) (2025-04-29T22:16:39Z) - A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis [1.5802986215292303]
我々は,n-gram統計量と規則を用いた大規模言語モデル(LLM)を評価する新しいベンチマークを提案する。
質問50と参照回答セットを用いて,n-gramとルールに基づく3つの新しいメトリクスを導入する。
本ベンチマークはGPT-4oに基づく評価と相関するが,計算資源は著しく少ない。
論文 参考訳(メタデータ) (2025-02-13T13:30:54Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。