論文の概要: MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs
- arxiv url: http://arxiv.org/abs/2603.07539v2
- Date: Mon, 16 Mar 2026 18:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.646375
- Title: MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs
- Title(参考訳): MAWARITH: LLMによる法的な継承推論のためのデータセットとベンチマーク
- Authors: Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed,
- Abstract要約: 我々は12,500のアラビア系継承事例からなる大規模な注釈付きデータセットであるMAWARITHを導入し、モデルを訓練し評価する。
継承ケースの解決を複数選択の質問に制限する以前のデータセットとは異なり、MAWARITHは完全な推論チェーンをサポートしている。
私たちのエラー分析では、シナリオの誤解釈、継承者の識別におけるエラー、共有割り当てにおけるエラー、キー継承ルールの欠落または誤適用など、繰り返し発生する障害パターンを特定します。
- 参考スコア(独自算出の注目度): 0.16060719742433224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Islamic inheritance law ('ilm al-mawarith) is challenging for large language models because solving inheritance cases requires complex, structured multi-step reasoning and the correct application of juristic rules to compute heirs' shares. We introduce MAWARITH, a large-scale annotated dataset of 12,500 Arabic inheritance cases for training and evaluating models on the full reasoning chain: (i) identifying eligible heirs, (ii) applying blocking (hajb) and allocation rules, and (iii) computing exact inheritance shares. Unlike prior datasets that restrict inheritance case solving to multiple-choice questions, MAWARITH supports the full reasoning chain and provides step-by-step solutions, including intermediate legal decisions and justifications based on classical juristic sources and established inheritance rules, as well as exact share calculations. To evaluate models beyond final-answer accuracy, we propose MIR-E (Mawarith Inheritance Reasoning Evaluation), a weighted multi-stage metric that scores key reasoning stages and captures error propagation across the pipeline. We evaluate six LLMs in a zero-shot setting. Gemini-2.5-flash achieves about 90% MIR-E on both validation and test, while Fanar-C, Fanar-Sadiq, LLaMA 3, and Qwen 3 remain below 50%. Our error analysis identifies recurring failure patterns, including scenario misinterpretation, errors in heir identification, errors in share allocation, and missing or incorrect application of key inheritance rules such as 'awl and radd. The MAWARITH dataset is publicly available at https://gitlab.com/islamgpt1/qias_shared_task_2026.
- Abstract(参考訳): イスラーム継承法 ('ilm al-mawarith) は、継承事件の解決には複雑で構造化された多段階の推論と、相続人の株式を計算するための法則の正しい適用が必要であるため、大きな言語モデルにとって困難である。
我々は12,500のアラビア継承事例からなる大規模注釈付きデータセットであるMAWARITHを紹介した。
一 相続人を特定すること。
二 ブロック(hajb)及び割当規則の適用、及び
三 正確な相続株式の計算
継承ケースの解決を複数選択の質問に制限する以前のデータセットとは異なり、MAWARITHは完全な推論チェーンをサポートし、中間的な法的決定や古典的法学的な情報源に基づく正当化、確立された継承規則、および正確な共有計算を含むステップバイステップのソリューションを提供する。
MIR-E (Mawarith Inheritance Reasoning Evaluation, MIR-E) は,重み付けされた多段階のメトリクスであり,重要な推論段階をスコアし,パイプライン間のエラー伝搬を捉える。
ゼロショット設定で6個のLDMを評価した。
Gemini-2.5-flashは検証とテストの両方で約90%のMIR-Eを達成する一方、Fanar-C、Fanar-Sadiq、LLaMA 3、Qwen 3は50%以下である。
私たちのエラー分析では、シナリオの誤解釈、継承者の識別におけるエラー、共有割り当てにおけるエラー、'awl and radd'のような重要な継承ルールの欠如や誤適用など、繰り返し発生する障害パターンを特定します。
MAWARITHデータセットはhttps://gitlab.com/islamgpt1/qias_shared_task_2026で公開されている。
関連論文リスト
- Assessing Large Language Models on Islamic Legal Reasoning: Evidence from Inheritance Law Evaluation [0.17592522344393483]
o3, Gemini 2.5は90%以上、allaM, Fanar, LLaMA, Mistralは50%以下であった。
モデル間で繰り返し発生する障害パターンを特定するために、詳細なエラー解析を行う。
本研究は、構造化された法的推論を扱う際の限界を強調し、イスラム法的推論におけるパフォーマンス向上の方向性を提案する。
論文 参考訳(メタデータ) (2025-09-01T03:08:10Z) - QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning [1.0152838128195467]
我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。
GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
論文 参考訳(メタデータ) (2025-08-20T10:29:55Z) - Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases [1.3521447196536418]
イスラム教の継承領域は、相続人間の株式の公平な分配を確保するために、ムスリムにとって重要な存在である。
大規模言語モデル(LLM)の最近の進歩は、複雑な法的推論タスクを支援する可能性への関心を喚起している。
本研究は、イスラム継承法を解釈・適用するための最先端のLDMの推論能力を評価する。
論文 参考訳(メタデータ) (2025-08-13T10:37:58Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - JudgeLRM: Large Reasoning Models as a Judge [80.07261839142548]
判断指向大規模言語モデル(LLM)のファミリーであるジャッジLRMを紹介する。
SFTの性能向上と推論要求サンプルの比率との間には負の相関が見られ、これらのシナリオにおけるSFTの限界が明らかになる。
判定LRMは、他のRLおよびSFTの変種と同様に、同じサイズでSFTチューニングベースラインを一貫して上回り、最先端の推論モデルを超えていることを示す。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - Evaluating LLM-based Approaches to Legal Citation Prediction: Domain-specific Pre-training, Fine-tuning, or RAG? A Benchmark and an Australian Law Case Study [9.30538764385435]
大規模言語モデル (LLM) は法的タスクに強い可能性を示しているが、法的な引用予測の問題は未解明のままである。
AusLaw Citation Benchmarkは,オーストラリアで55万の法的事例と18,677のユニークな引用からなる実世界のデータセットである。
次に、さまざまなソリューションに対して、システマティックなベンチマークを実施します。
その結果, 一般および法定LLMは独立解として十分ではなく, ほぼゼロに近い性能を示した。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - On Catastrophic Inheritance of Large Foundation Models [51.41727422011327]
大ファンデーションモデル(LFM)は素晴らしいパフォーマンスを誇示している。しかし、彼らの神話的および解釈されていないポテンシャルについて大きな懸念が持ち上がっている。
我々は, LFMに深く根ざした「破滅的継承」という, 無視された問題を特定することを提案する。
この問題の背景にある課題を議論し、事前学習と下流適応の両方からLFMの破滅的な継承を理解するためのフレームワークであるUIMを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。