Fugu-MT 論文翻訳(概要): GreekBarBench: A Challenging Benchmark for Free-Text Legal Reasoning and Citations

論文の概要: GreekBarBench: A Challenging Benchmark for Free-Text Legal Reasoning and Citations

arxiv url: http://arxiv.org/abs/2505.17267v2
Date: Wed, 18 Jun 2025 10:12:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 16:34:05.422982
Title: GreekBarBench: A Challenging Benchmark for Free-Text Legal Reasoning and Citations
Title（参考訳）: GreekBarBench: フリーテキストの法的推論と扇動のためのベンチマーク
Authors: Odysseas S. Chlapanis, Dimitrios Galanis, Nikolaos Aletras, Ion Androutsopoulos,
Abstract要約: ギリシャ・バーベンチは、ギリシャ・バーの試験と異なる5つの法分野の法的問題に関するLLMを評価するベンチマークである。自由テキスト評価の課題に対処するために,LLM-as-a-judgeアプローチと組み合わせた3次元スコアリングシステムを提案する。
参考スコア（独自算出の注目度）: 40.578140174918836
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce GreekBarBench, a benchmark that evaluates LLMs on legal questions across five different legal areas from the Greek Bar exams, requiring citations to statutory articles and case facts. To tackle the challenges of free-text evaluation, we propose a three-dimensional scoring system combined with an LLM-as-a-judge approach. We also develop a meta-evaluation benchmark to assess the correlation between LLM-judges and human expert evaluations, revealing that simple, span-based rubrics improve their alignment. Our systematic evaluation of 13 proprietary and open-weight LLMs shows that even though the best models outperform average expert scores, they fall short of the 95th percentile of experts.
Abstract（参考訳）: ギリシャ・バーベンチは、ギリシャ・バーの試験と異なる5つの法分野の法的問題に関するLCMを評価し、法定記事や事件事実の引用を必要とするベンチマークである。自由テキスト評価の課題に対処するために,LLM-as-a-judgeアプローチと組み合わせた3次元スコアリングシステムを提案する。また, LLM-judges と人間専門家評価の相関性を評価するメタ評価ベンチマークを開発し, 単純でスパンベースのルーリックがアライメントを改善することを明らかにした。 13のプロプライエタリかつオープンウェイトなLCMの体系的評価は、最高のモデルが平均的専門家スコアを上回っているにもかかわらず、専門家の95%に満たないことを示している。

関連論文リスト

On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。本研究では,LLMの生成能力と評価能力の関係について検討した。モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文参考訳（メタデータ） (2025-11-25T18:33:24Z)
Unveiling the Merits and Defects of LLMs in Automatic Review Generation for Scientific Papers [4.455306283717651]
科学論文の急増は、従来のピアレビュープロセスに緊張を増している。本稿では,意味的類似性分析と構造化知識グラフメトリクスを統合した総合評価フレームワークを提案する。 ICLRとNeurIPSによる1,683の論文と6,495の専門家レビューのベンチマークを数年間にわたって構築し、5つの大きな言語モデルを用いてレビューを生成する。
論文参考訳（メタデータ） (2025-09-13T19:15:22Z)
Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。 182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文参考訳（メタデータ） (2025-08-14T16:18:37Z)
Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文参考訳（メタデータ） (2025-06-03T14:44:23Z)
Automatic Legal Writing Evaluation of LLMs [10.74636407144071]
oab-benchは、最近の試験版から7つの分野にわたる105の質問からなるベンチマークである。 Claude-3.5 Sonnetは10点中平均スコア7.93点で21点の試験に合格した。実験の結果,OpenAIのo1のようなフロンティアモデルでは,承認試験の評価において,人間のスコアと強い相関が得られた。
論文参考訳（メタデータ） (2025-04-29T22:16:39Z)
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-04-01T09:36:56Z)
A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis [1.5802986215292303]
我々は,n-gram統計量と規則を用いた大規模言語モデル(LLM)を評価する新しいベンチマークを提案する。質問50と参照回答セットを用いて,n-gramとルールに基づく3つの新しいメトリクスを導入する。本ベンチマークはGPT-4oに基づく評価と相関するが,計算資源は著しく少ない。
論文参考訳（メタデータ） (2025-02-13T13:30:54Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文参考訳（メタデータ） (2024-08-16T14:49:35Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。