Fugu-MT 論文翻訳(概要): IslamicLegalBench: Evaluating LLMs Knowledge and Reasoning of Islamic Law Across 1,200 Years of Islamic Pluralist Legal Traditions

論文の概要: IslamicLegalBench: Evaluating LLMs Knowledge and Reasoning of Islamic Law Across 1,200 Years of Islamic Pluralist Legal Traditions

arxiv url: http://arxiv.org/abs/2602.21226v1
Date: Mon, 02 Feb 2026 10:30:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 07:21:25.66191
Title: IslamicLegalBench: Evaluating LLMs Knowledge and Reasoning of Islamic Law Across 1,200 Years of Islamic Pluralist Legal Traditions
Title（参考訳）: イスラムルガルベンチ:1200年にわたるイスラム法の知識と推論の評価
Authors: Ezieddin Elmahjub, Junaid Qadir, Abdullah Mushtaq, Rafay Naeem, Ibrahim Ghaznavi, Waleed Iqbal,
Abstract要約: ISLegalBenchは、イスラム法学の7つの学派でLSMを評価する最初のベンチマークである。最良のモデルは68%の正しさしか達成せず、幻覚は21%である。ショットプロンプトは最小限のゲインを提供し、9つのモデルのうち2つしか改善していない。
参考スコア（独自算出の注目度）: 1.3052252174353483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As millions of Muslims turn to LLMs like GPT, Claude, and DeepSeek for religious guidance, a critical question arises: Can these AI systems reliably reason about Islamic law? We introduce IslamicLegalBench, the first benchmark evaluating LLMs across seven schools of Islamic jurisprudence, with 718 instances covering 13 tasks of varying complexity. Evaluation of nine state-of-the-art models reveals major limitations: the best model achieves only 68% correctness with 21% hallucination, while several models fall below 35% correctness and exceed 55% hallucination. Few-shot prompting provides minimal gains, improving only 2 of 9 models by >1%. Moderate-complexity tasks requiring exact knowledge show the highest errors, whereas high-complexity tasks display apparent competence through semantic reasoning. False premise detection indicates risky sycophancy, with 6 of 9 models accepting misleading assumptions at rates above 40%. These results highlight that prompt-based methods cannot compensate for missing foundational knowledge. IslamicLegalBench offers the first systematic framework to evaluate Islamic legal reasoning in AI, revealing critical gaps in tools increasingly relied on for spiritual guidance.
Abstract（参考訳）: 何百万人ものイスラム教徒が、GPT、Claude、DeepSeekといったLLMに宗教指導を依頼する中で、重要な疑問が浮かび上がっている。 ISISLegalBenchは、イスラム法学の7つの学派にまたがるLSMを評価する最初のベンチマークであり、718の事例は複雑さの異なる13のタスクをカバーしている。最高のモデルは21%の幻覚で68%の正当性を達成し、いくつかのモデルは35%の正当性を達成し、55%以上の幻覚を達成している。ショットプロンプトは最小限のゲインを提供し、9つのモデルのうち2つしか改善していない。正確な知識を必要とする適度な複雑度タスクは最も高い誤りを示すが、高複雑度タスクは意味論的推論によって明らかな能力を示す。偽の前提検出は、リスクのある梅毒を示唆しており、9つのモデルのうち6つは、40%以上の速度で誤解を招く仮定を受け入れている。これらの結果から,素早い手法では基礎知識の欠如を補うことができないことが明らかとなった。 IslamicLegalBenchは、AIにおけるイスラムの法的推論を評価するための最初の体系的なフレームワークを提供する。

関連論文リスト

Reason-KE++: Aligning the Process, Not Just the Outcome, for Faithful LLM Knowledge Editing [63.96040994220329]
SFTに基づく手法、例えばReason-KEは「偽りのギャップ」に悩まされている。このギャップにより、LLMの強力なパラメトリック先行は、新しい文脈事実をオーバーライドすることができる。本稿では,プロセスレベルの忠実性を具現化するSFT+RLフレームワークReason-KE++を提案する。
論文参考訳（メタデータ） (2025-11-16T15:49:01Z)
Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content [1.922162958936778]
大きな言語モデルはイスラム教の指導にますます使われるが、テキストを誤って引用したり、法学を誤用したり、文化的に矛盾した反応を生んだりするリスクがある。 GPT-4o、Ansari AI、Fanarの評価を、真正のイスラムブログからのプロンプトでパイロットする。 GPT-4oはイスラムの正確さ(3.93)とCitation(3.38)、Ansari AI(3.68, 3.32)、Fanar Lagged(2.76, 1.82)で最高点を記録した。
論文参考訳（メタデータ） (2025-10-28T14:05:55Z)
Robust Knowledge Editing via Explicit Reasoning Chains for Distractor-Resilient Multi-Hop QA [63.96040994220329]
Reason-KEは、4つの構造化されたステージファクト認識、関連性決定、選択的応用、そして1回のパスでイントラクタをフィルタする最終的な理由付けによって、事前訓練された大きな言語モデルを操る。最大4つの無関係な事実を持つMQuAKE-CFで訓練されたReason-KEは、QAの精度を90.2%に高め、重い注意を払って6.3%低下し、回答が漏れたときは1%にしかならない。
論文参考訳（メタデータ） (2025-09-01T13:37:42Z)
Assessing Large Language Models on Islamic Legal Reasoning: Evidence from Inheritance Law Evaluation [0.17592522344393483]
o3, Gemini 2.5は90%以上、allaM, Fanar, LLaMA, Mistralは50%以下であった。モデル間で繰り返し発生する障害パターンを特定するために、詳細なエラー解析を行う。本研究は、構造化された法的推論を扱う際の限界を強調し、イスラム法的推論におけるパフォーマンス向上の方向性を提案する。
論文参考訳（メタデータ） (2025-09-01T03:08:10Z)
QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning [1.0152838128195467]
我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。 GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
論文参考訳（メタデータ） (2025-08-20T10:29:55Z)
Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases [1.3521447196536418]
イスラム教の継承領域は、相続人間の株式の公平な分配を確保するために、ムスリムにとって重要な存在である。大規模言語モデル(LLM)の最近の進歩は、複雑な法的推論タスクを支援する可能性への関心を喚起している。本研究は、イスラム継承法を解釈・適用するための最先端のLDMの推論能力を評価する。
論文参考訳（メタデータ） (2025-08-13T10:37:58Z)
Sacred or Synthetic? Evaluating LLM Reliability and Abstention for Religious Questions [10.53116395328794]
我々は、アラビア語と英語の4つの主要なスンニ学派によって明確に分類された、LLMが生成するイスラム支配に焦点を当てた新しいベンチマークであるFiqhQAを紹介した。我々のゼロショットと棄権実験は、LLM、言語、および法的な思考の流派間で大きな変化を示します。我々の知る限りでは、この研究は、よりきめ細かいイスラム特有の支配世代のための LLMs の有効性をベンチマークし、イスラムクエリの棄権を評価する最初の研究である。
論文参考訳（メタデータ） (2025-08-04T07:27:26Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。 12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文参考訳（メタデータ） (2024-11-05T01:11:28Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。