論文の概要: JBE-QA: Japanese Bar Exam QA Dataset for Assessing Legal Domain Knowledge
- arxiv url: http://arxiv.org/abs/2511.22869v1
- Date: Fri, 28 Nov 2025 04:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.76403
- Title: JBE-QA: Japanese Bar Exam QA Dataset for Assessing Legal Domain Knowledge
- Title(参考訳): JBE-QA:法領域知識評価のための日本語バーエクサムQAデータセット
- Authors: Zhihan Cao, Fumihito Nishino, Hiroaki Yamada, Nguyen Ha Thanh, Yusuke Miyao, Ken Satoh,
- Abstract要約: JBE-QA(JBE-QA)は、大規模言語モデルの法的な知識を評価するための日本語バーエクサム質問回答データセットである。
民法、刑法、憲法を網羅し、旧来の日本の資源に焦点を絞った民法を超越している。
データセットには,バランスの取れたラベル付き3,464項目が含まれている。
- 参考スコア(独自算出の注目度): 12.186157241528404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JBE-QA, a Japanese Bar Exam Question-Answering dataset to evaluate large language models' legal knowledge. Derived from the multiple-choice (tanto-shiki) section of the Japanese bar exam (2015-2024), JBE-QA provides the first comprehensive benchmark for Japanese legal-domain evaluation of LLMs. It covers the Civil Code, the Penal Code, and the Constitution, extending beyond the Civil Code focus of prior Japanese resources. Each question is decomposed into independent true/false judgments with structured contextual fields. The dataset contains 3,464 items with balanced labels. We evaluate 26 LLMs, including proprietary, open-weight, Japanese-specialised, and reasoning models. Our results show that proprietary models with reasoning enabled perform best, and the Constitution questions are generally easier than the Civil Code or the Penal Code questions.
- Abstract(参考訳): JBE-QAは,大規模言語モデルの法的な知識を評価するために,日本語バーエクサム質問回答データセットである。
JBE-QAは,2015-2024年の日本弁護士試験のマルチチョイス(タントシキ)セクションから派生したもので,日本におけるLLMの法的領域評価のための総合的なベンチマークとして,初めてのものである。
民法、刑法、憲法を網羅し、旧来の日本の資源に焦点を絞った民法を超越している。
各質問は、構造化された文脈場を持つ独立した真/偽の判断に分解される。
データセットには,バランスの取れたラベル付き3,464項目が含まれている。
プロプライエタリ、オープンウェイト、日本語特化、推論モデルを含む26のLLMを評価した。
提案法は, 民法や刑法より, 憲法上の問題の方が比較的容易であることが示唆された。
関連論文リスト
- LexGenius: An Expert-Level Benchmark for Large Language Models in Legal General Intelligence [74.05988707492058]
法務総合知能(ぎょうげんがく、英語: Legal General Intelligence, GI)とは、法的な理解、推論、意思決定を含む人工知能(AI)のこと。
既存のベンチマークは結果指向であり、大規模言語モデル(LLM)の法的なインテリジェンスを体系的に評価することができない。
我々は、LLMにおける法GIを評価するための専門家レベルの中国の法定ベンチマークであるLexGeniusを提案する。
論文 参考訳(メタデータ) (2025-12-04T08:48:02Z) - Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning [0.5308136763388956]
私たちは、インドの公的な司法試験を透明な代理として利用しています。
私たちのベンチマークは、国家試験と国家試験の客観的な画面をまとめたものです。
我々はまた、最高裁判所のAdvocate-on-Record試験による長文の回答について、弁護士に格付けされた、ペアの書面による研究も含んでいる。
論文 参考訳(メタデータ) (2025-10-19T10:04:29Z) - ParamBench: A Graduate-Level Benchmark for Evaluating LLM Understanding on Indic Subjects [4.2155105586549535]
我々は,ヒンディー語で17K以上の質問からなるParamBenchについて,21の多様な被験者の質問紙から回答を得た。
これらの質問は、主に歴史、音楽、楽器、ヨガ、プッシュ、文学、哲学、法律などに関する全国レベルの入学試験から導かれる。
このベンチマークで16以上のオープンソースLLMの性能を評価し,Gemma3-27Bが56.4%の精度で最高であることを確認した。
論文 参考訳(メタデータ) (2025-08-22T07:59:37Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。
具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。
さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文 参考訳(メタデータ) (2025-02-23T15:36:43Z) - LegalBench.PT: A Benchmark for Portuguese Law [17.554201334646056]
ポルトガル法の主要な領域をカバーする最初の総合的な法定ベンチマークである LegalBench.PT を提示する。
まず、実法試験から長文の質問と回答を収集し、次に、GPT-4oを使って、それらを多重選択、真/偽、マッチングフォーマットに変換する。
論文 参考訳(メタデータ) (2025-02-22T21:07:12Z) - Interpretable Long-Form Legal Question Answering with
Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。
実験結果から,自動評価指標について有望な性能を示した。
LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文 参考訳(メタデータ) (2023-09-29T08:23:19Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - A Survey on Legal Judgment Prediction: Datasets, Metrics, Models and
Challenges [73.34944216896837]
法定判断予測(LJP)は,事実記述に基づく判断結果の自動予測に自然言語処理(NLP)技術を適用している。
6言語で31のLJPデータセットを分析し、その構築過程を示し、LJPの分類方法を定義する。
異なる訴訟の8つの代表的データセットに対する最先端の結果を示し、オープンな課題について議論する。
論文 参考訳(メタデータ) (2022-04-11T04:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。