論文の概要: UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning
- arxiv url: http://arxiv.org/abs/2605.29170v1
- Date: Wed, 27 May 2026 23:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.553536
- Title: UA-Legal-Bench: A Benchmark for Evaluating Large Language Models on Ukrainian Legal Reasoning
- Title(参考訳): UA-Legal-Bench:ウクライナの法律推論における大規模言語モデルの評価ベンチマーク
- Authors: Volodymyr Ovcharov,
- Abstract要約: UA-Legal-Benchは、ウクライナの法的な推論に基づいて大きな言語モデルを評価するための5タスクのベンチマークである。
私たちは、ゼロショットと3ショットのプロンプトで5つのファミリーから11のLSMを評価し、158KのAPIコールでAWS Bedrock経由で実行します。
この結果より, 課題依存性の少ない小ショット効果は, 判定形態の分類を+38.6ppまで改善するが, 結果予測には混合効果があることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal NLP benchmarks are overwhelmingly English-centric, leaving failure modes in morphologically rich, non-Latin-script languages undetected. We introduce UA-Legal-Bench, a five-task benchmark for evaluating large language models on Ukrainian legal reasoning, built from the Unified State Register of Court Decisions (EDRSR) -- one of the world's largest open judicial corpora (99.5 million decisions). The benchmark comprises: (1) case-type classification (4 classes, n=2,000), (2) judgment form classification (4 classes, n=2,000), (3) case-outcome prediction (6 classes, n=800), (4) legal norm extraction (n=1,794), and (5) cause category prediction (22 classes, n=1,871). We evaluate 11 LLMs (3B--675B) from five families under zero-shot and 3-shot prompting via AWS Bedrock with 158K API calls. Our results reveal sharply task-dependent few-shot effects: few-shot prompting improves judgment form classification by up to +38.6 pp but has mixed effects on outcome prediction. We show that accuracy is misleading on imbalanced legal tasks: the model with highest COP accuracy (62%) is a majority-class predictor (macro-F1: 23%), while the genuinely best model scores only 44% macro-F1. Within-family scaling analysis reveals that 8B models can match frontier performance on surface-level tasks but scaling thresholds vary dramatically across families. We release all data, prompts, and model predictions.
- Abstract(参考訳): 法的なNLPベンチマークは圧倒的に英語中心であり、モルフォロジーに富んだ非ラテン文字言語では失敗モードは検出されない。
UA-Legal-Benchは、ウクライナの法律的推論に基づいて、大規模な言語モデルを評価するための5タスクのベンチマークである。
1)ケースタイプ分類(4クラス,n=2000),(2)判断形式分類(4クラス,n=2000),(3)ケースアウトカム予測(6クラス,n=800),(4)法的規範抽出(n=1,794),(5)原因カテゴリー予測(22クラス,n=1,871)からなる。
ゼロショットと3ショットのプロンプトで5つのファミリーから11のLM(3B--675B)をAWS Bedrock経由で158KのAPIコールで評価した。
この結果より, 課題依存性の少ない小ショット効果は, 判定形態の分類を+38.6ppまで改善するが, 結果予測には混合効果があることがわかった。
最大COP精度(62%)のモデルが多数クラスの予測器(マクロF1: 23%)であり、真に最良のモデルスコアは44%のマクロF1である。
家庭内スケーリング分析では、8Bモデルが表面レベルのタスクにおいてフロンティアのパフォーマンスにマッチするが、スケーリングしきい値は家族間で劇的に異なる。
すべてのデータ、プロンプト、モデル予測をリリースします。
関連論文リスト
- Multi-Legal-Bench: Evaluating LLMs on Legal Reasoning Across Jurisdictions, Languages, and Legal Traditions [0.0]
Multi-Legal-Benchは、6か国で同一のタスクを評価する最初の横断的法定ベンチマークである。
ベンチマークでは、裁判所型分類、判決形式分類、ケースアウトカム予測、法的規範抽出、原因カテゴリー予測の5つのタスクを定義している。
ゼロショットと3ショットのプロンプトでAWS Bedrock経由で7つのフロンティアLSMを評価し、スケーリング分析のために4つのスモール/メジウムモデル(3-12B)を追加しました。
論文 参考訳(メタデータ) (2026-05-28T10:31:37Z) - Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study [0.0]
トケナイザーの出生率は、ウクライナの法文に基づく基礎モデルの1.6倍である。
Qwen 3モデルは同一入力上のLlamaファミリーモデルよりも60%多くトークンを消費する。
パフォーマンスは最大26ポイント低下する。
論文 参考訳(メタデータ) (2026-05-14T14:35:05Z) - LegalBench-BR: A Benchmark for Evaluating Large Language Models on Brazilian Legal Decision Classification [0.0]
ブラジルの法律テキスト分類における言語モデル評価のための最初の公開ベンチマークであるLegalBench-BRを紹介する。
データセットは、サンタカタリーナ州裁判所(TJSC)による3,105の手続きからなる。
クラスバランステストセットでは、BERTimbau-LoRAは87.6%の精度と0.87のマクロF1を達成する(Claude 3.5 Haikuより+22pp、GPT-4o miniより+28pp)。
論文 参考訳(メタデータ) (2026-04-20T22:00:02Z) - Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks [0.0]
既存のベンチマークでは、適用されたスイスの規制タスクにおけるフロンティアモデルのパフォーマンスを評価していない。
スイス・ベンチ(Swiss-Bench)は、スイスの3つの規制ドメインにまたがる395のエキスパート工芸品のトリンガルベンチマークである。
私は、構造化された3次元スコアリングフレームワークを使用して、2026年3月からの10つのフロンティアモデルを評価します。
論文 参考訳(メタデータ) (2026-03-24T18:41:07Z) - Prediction of Arabic Legal Rulings using Large Language Models [1.3499500088995464]
本稿では,10,813件の商業裁判所実例を対象としたアラビア裁判所判決の包括的予測分析の先駆者となる。
我々は,3つの基本モデル(LLaMA-7b,JAIS-13b,GPT3.5-turbo)と,ゼロショット,ワンショット,微調整の3つの訓練パラダイムを評価した。
GPT-3.5ベースのモデルは、アラビア語中心のJAISモデルの平均スコアを50%上回り、他のモデルよりも広いマージンで優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T10:37:35Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。