論文の概要: Assessing Large Language Models on Islamic Legal Reasoning: Evidence from Inheritance Law Evaluation
- arxiv url: http://arxiv.org/abs/2509.01081v1
- Date: Mon, 01 Sep 2025 03:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.531559
- Title: Assessing Large Language Models on Islamic Legal Reasoning: Evidence from Inheritance Law Evaluation
- Title(参考訳): イスラム法推論における大規模言語モデルの評価 : 継承法評価からの証拠
- Authors: Abdessalam Bouchekif, Samer Rashwani, Heba Sbahi, Shahd Gaben, Mutez Al-Khatib, Mohammed Ghaly,
- Abstract要約: o3, Gemini 2.5は90%以上、allaM, Fanar, LLaMA, Mistralは50%以下であった。
モデル間で繰り返し発生する障害パターンを特定するために、詳細なエラー解析を行う。
本研究は、構造化された法的推論を扱う際の限界を強調し、イスラム法的推論におけるパフォーマンス向上の方向性を提案する。
- 参考スコア(独自算出の注目度): 0.17592522344393483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper evaluates the knowledge and reasoning capabilities of Large Language Models in Islamic inheritance law, known as 'ilm al-mawarith. We assess the performance of seven LLMs using a benchmark of 1,000 multiple-choice questions covering diverse inheritance scenarios, designed to test models' ability to understand the inheritance context and compute the distribution of shares prescribed by Islamic jurisprudence. The results reveal a significant performance gap: o3 and Gemini 2.5 achieved accuracies above 90%, whereas ALLaM, Fanar, LLaMA, and Mistral scored below 50%. These disparities reflect important differences in reasoning ability and domain adaptation. We conduct a detailed error analysis to identify recurring failure patterns across models, including misunderstandings of inheritance scenarios, incorrect application of legal rules, and insufficient domain knowledge. Our findings highlight limitations in handling structured legal reasoning and suggest directions for improving performance in Islamic legal reasoning. Code: https://github.com/bouchekif/inheritance_evaluation
- Abstract(参考訳): 本稿では,イスラム継承法における大規模言語モデルの知識と推論能力について,<ilm al-mawarith</ilm al-mawarith</il>とよばれる評価を行った。我々は,継承状況の理解と,イスラム法学者が規定する株式の分配をモデルが把握する能力をテストするために,多様な継承シナリオを網羅した1,000の質問のベンチマークを用いて,7つのLCMの性能を評価する。
o3とGemini 2.5は90%以上,ALLaM, Fanar, LLaMA, Mistralは50%以下であった。
これらの差異は推論能力とドメイン適応の重要な違いを反映している。
継承シナリオの誤解、法則の誤適用、ドメイン知識の不足など、モデル間で繰り返し発生する障害パターンを特定するための詳細なエラー解析を行います。
本研究は、構造化された法的推論を扱う際の限界を強調し、イスラム法的推論におけるパフォーマンス向上の方向性を提案する。
コード:https://github.com/bouchekif/inheritance_evaluation
関連論文リスト
- QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning [1.0152838128195467]
我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。
GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
論文 参考訳(メタデータ) (2025-08-20T10:29:55Z) - Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases [1.3521447196536418]
イスラム教の継承領域は、相続人間の株式の公平な分配を確保するために、ムスリムにとって重要な存在である。
大規模言語モデル(LLM)の最近の進歩は、複雑な法的推論タスクを支援する可能性への関心を喚起している。
本研究は、イスラム継承法を解釈・適用するための最先端のLDMの推論能力を評価する。
論文 参考訳(メタデータ) (2025-08-13T10:37:58Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain [12.550611136062722]
本稿では,ロバストネステストのための法的な知識注入攻撃法を提案する。
本フレームワークの目的は,LLMが法的タスクを遂行する際の演能的推論を行うかどうかを検討することである。
我々は、法律の専門家が現実世界の司法判断で犯す可能性のある誤りを収集した。
論文 参考訳(メタデータ) (2025-03-24T05:42:05Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - The Factuality of Large Language Models in the Legal Domain [8.111302195052641]
本稿では,法域における知識基盤としての大規模言語モデル(LLM)の事実性について検討する。
事例法と法律に関する多様な事実質問のデータセットを設計する。
次に、データセットを用いて、精度、エイリアス、ファジィマッチングなど、異なる評価手法で複数のLCMを評価する。
論文 参考訳(メタデータ) (2024-09-18T08:30:20Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Knowledge is Power: Understanding Causality Makes Legal judgment
Prediction Models More Generalizable and Robust [3.555105847974074]
法的判断予測(LJP)は、限られた法律実務者の労働負担を軽減するために法的支援を行う。
既存の手法の多くは、LJPタスクで微調整された様々な大規模事前学習言語モデルを適用し、一貫した改善を得る。
最先端モデル(SOTA)は,無関係情報(あるいは非因果情報)に基づいて判断予測を行う。
論文 参考訳(メタデータ) (2022-11-06T07:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。