論文の概要: Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases
- arxiv url: http://arxiv.org/abs/2508.15796v1
- Date: Wed, 13 Aug 2025 10:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.535108
- Title: Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases
- Title(参考訳): アラブ系イスラム継承事件におけるLLMの法的推論のベンチマーク
- Authors: Nouar AlDahoul, Yasir Zaki,
- Abstract要約: イスラム教の継承領域は、相続人間の株式の公平な分配を確保するために、ムスリムにとって重要な存在である。
大規模言語モデル(LLM)の最近の進歩は、複雑な法的推論タスクを支援する可能性への関心を喚起している。
本研究は、イスラム継承法を解釈・適用するための最先端のLDMの推論能力を評価する。
- 参考スコア(独自算出の注目度): 1.3521447196536418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Islamic inheritance domain holds significant importance for Muslims to ensure fair distribution of shares between heirs. Manual calculation of shares under numerous scenarios is complex, time-consuming, and error-prone. Recent advancements in Large Language Models (LLMs) have sparked interest in their potential to assist with complex legal reasoning tasks. This study evaluates the reasoning capabilities of state-of-the-art LLMs to interpret and apply Islamic inheritance laws. We utilized the dataset proposed in the ArabicNLP QIAS 2025 challenge, which includes inheritance case scenarios given in Arabic and derived from Islamic legal sources. Various base and fine-tuned models, are assessed on their ability to accurately identify heirs, compute shares, and justify their reasoning in alignment with Islamic legal principles. Our analysis reveals that the proposed majority voting solution, leveraging three base models (Gemini Flash 2.5, Gemini Pro 2.5, and GPT o3), outperforms all other models that we utilized across every difficulty level. It achieves up to 92.7% accuracy and secures the third place overall in Task 1 of the Qias 2025 challenge.
- Abstract(参考訳): イスラム教の継承領域は、相続人間の株式の公平な分配を確保するために、ムスリムにとって重要な存在である。
多数のシナリオ下での共有のマニュアル計算は複雑で時間がかかり、エラーが発生しやすい。
大規模言語モデル(LLM)の最近の進歩は、複雑な法的推論タスクを支援する可能性への関心を喚起している。
本研究は、イスラム継承法を解釈・適用するための最先端のLDMの推論能力を評価する。
我々はアラビアNLP QIAS 2025チャレンジで提案されたデータセットを利用した。
様々な基礎と微調整されたモデルは、相続人を正確に識別し、共有を計算し、イスラームの法原則に従って彼らの推論を正当化する能力に基づいて評価される。
我々の分析によると、提案された多数決ソリューションは、3つのベースモデル(Gemini Flash 2.5、Gemini Pro 2.5、GPT o3)を利用しており、あらゆる難易度で使用した他のモデルよりも優れています。
92.7%の精度を達成し、Qias 2025チャレンジの第1タスクで第3位を確保している。
関連論文リスト
- When Do Language Models Endorse Limitations on Human Rights Principles? [82.84306700922664]
我々は,大言語モデル(LLM)が人権宣言(UDHR)を含むトレードオフをどのようにナビゲートするかを評価する。
主要な11のLCMを分析した結果、モデルが政治的、公民的権利よりも経済的、社会的、文化的権利の制限を受け入れるという体系的なバイアスが明らかとなった。
論文 参考訳(メタデータ) (2026-03-04T16:01:53Z) - IslamicLegalBench: Evaluating LLMs Knowledge and Reasoning of Islamic Law Across 1,200 Years of Islamic Pluralist Legal Traditions [1.3052252174353483]
ISLegalBenchは、イスラム法学の7つの学派でLSMを評価する最初のベンチマークである。
最良のモデルは68%の正しさしか達成せず、幻覚は21%である。
ショットプロンプトは最小限のゲインを提供し、9つのモデルのうち2つしか改善していない。
論文 参考訳(メタデータ) (2026-02-02T10:30:59Z) - DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Assessing Large Language Models on Islamic Legal Reasoning: Evidence from Inheritance Law Evaluation [0.17592522344393483]
o3, Gemini 2.5は90%以上、allaM, Fanar, LLaMA, Mistralは50%以下であった。
モデル間で繰り返し発生する障害パターンを特定するために、詳細なエラー解析を行う。
本研究は、構造化された法的推論を扱う際の限界を強調し、イスラム法的推論におけるパフォーマンス向上の方向性を提案する。
論文 参考訳(メタデータ) (2025-09-01T03:08:10Z) - CVPD at QIAS 2025 Shared Task: An Efficient Encoder-Based Approach for Islamic Inheritance Reasoning [6.5255476646093316]
イスラーム継承法(Ilm al-Mawarith)は、相続人の正確な識別と株式の計算を必要とする。
本稿では,アラビア文字エンコーダとアテンテーティブ・レバレンス・スコーリング(ARS)を用いた継承問題解決フレームワークを提案する。
このシステムは、意味的関連性に応じて回答オプションをランク付けし、生成的推論なしで高速でデバイス上の推論を可能にする。
論文 参考訳(メタデータ) (2025-08-30T11:03:54Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - MizanQA: Benchmarking Large Language Models on Moroccan Legal Question Answering [13.01152821327721]
本稿では,大規模言語モデル(LLM)を評価するベンチマークであるMizanQaを紹介する。
このデータセットは、現代標準アラビア語、イスラムマリキ法、モロッコの慣習法、フランスの法的な影響に基づいている。
多言語とアラビア語にフォーカスしたLLMによるベンチマーク実験は、かなりの性能差を示している。
論文 参考訳(メタデータ) (2025-08-22T13:04:43Z) - QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning [1.0152838128195467]
我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。
GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
論文 参考訳(メタデータ) (2025-08-20T10:29:55Z) - Benchmarking the Medical Understanding and Reasoning of Large Language Models in Arabic Healthcare Tasks [1.3521447196536418]
本研究では、現在最先端の大規模言語モデルが、アラビア語の医療知識を如何に示し、具体化しているかについて検討する。
我々は、MedArabiQ2025トラックのアラビアNLP AraHealthQAチャレンジで提案された医療データセットを用いて、複数のLCMをベンチマークした。
その結果, 正解予測精度の有意な変動と, 生成した解のセマンティックアライメントの低変化が明らかになった。
論文 参考訳(メタデータ) (2025-08-13T10:41:17Z) - Sacred or Synthetic? Evaluating LLM Reliability and Abstention for Religious Questions [10.53116395328794]
我々は、アラビア語と英語の4つの主要なスンニ学派によって明確に分類された、LLMが生成するイスラム支配に焦点を当てた新しいベンチマークであるFiqhQAを紹介した。
我々のゼロショットと棄権実験は、LLM、言語、および法的な思考の流派間で大きな変化を示します。
我々の知る限りでは、この研究は、よりきめ細かいイスラム特有の支配世代のための LLMs の有効性をベンチマークし、イスラムクエリの棄権を評価する最初の研究である。
論文 参考訳(メタデータ) (2025-08-04T07:27:26Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Can Large Language Models Predict the Outcome of Judicial Decisions? [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において例外的な機能を示す。
LLaMA-3.2-3B や LLaMA-3.1-8B を含む最先端のオープンソース LLM を様々な構成でベンチマークする。
本結果は,タスク固有のコンテキストにおいて,細調整された小型モデルが大規模モデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-15T11:32:35Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。