論文の概要: JBE-QA: Japanese Bar Exam QA Dataset for Assessing Legal Domain Knowledge
- arxiv url: http://arxiv.org/abs/2511.22869v1
- Date: Fri, 28 Nov 2025 04:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.76403
- Title: JBE-QA: Japanese Bar Exam QA Dataset for Assessing Legal Domain Knowledge
- Title(参考訳): JBE-QA:法領域知識評価のための日本語バーエクサムQAデータセット
- Authors: Zhihan Cao, Fumihito Nishino, Hiroaki Yamada, Nguyen Ha Thanh, Yusuke Miyao, Ken Satoh,
- Abstract要約: JBE-QA(JBE-QA)は、大規模言語モデルの法的な知識を評価するための日本語バーエクサム質問回答データセットである。
民法、刑法、憲法を網羅し、旧来の日本の資源に焦点を絞った民法を超越している。
データセットには,バランスの取れたラベル付き3,464項目が含まれている。
- 参考スコア(独自算出の注目度): 12.186157241528404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JBE-QA, a Japanese Bar Exam Question-Answering dataset to evaluate large language models' legal knowledge. Derived from the multiple-choice (tanto-shiki) section of the Japanese bar exam (2015-2024), JBE-QA provides the first comprehensive benchmark for Japanese legal-domain evaluation of LLMs. It covers the Civil Code, the Penal Code, and the Constitution, extending beyond the Civil Code focus of prior Japanese resources. Each question is decomposed into independent true/false judgments with structured contextual fields. The dataset contains 3,464 items with balanced labels. We evaluate 26 LLMs, including proprietary, open-weight, Japanese-specialised, and reasoning models. Our results show that proprietary models with reasoning enabled perform best, and the Constitution questions are generally easier than the Civil Code or the Penal Code questions.
- Abstract(参考訳): JBE-QAは,大規模言語モデルの法的な知識を評価するために,日本語バーエクサム質問回答データセットである。
JBE-QAは,2015-2024年の日本弁護士試験のマルチチョイス(タントシキ)セクションから派生したもので,日本におけるLLMの法的領域評価のための総合的なベンチマークとして,初めてのものである。
民法、刑法、憲法を網羅し、旧来の日本の資源に焦点を絞った民法を超越している。
各質問は、構造化された文脈場を持つ独立した真/偽の判断に分解される。
データセットには,バランスの取れたラベル付き3,464項目が含まれている。
プロプライエタリ、オープンウェイト、日本語特化、推論モデルを含む26のLLMを評価した。
提案法は, 民法や刑法より, 憲法上の問題の方が比較的容易であることが示唆された。
関連論文リスト
- LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。