Fugu-MT 論文翻訳(概要): Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases

論文の概要: Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases

arxiv url: http://arxiv.org/abs/2508.15796v1
Date: Wed, 13 Aug 2025 10:37:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-31 21:54:20.535108
Title: Benchmarking the Legal Reasoning of LLMs in Arabic Islamic Inheritance Cases
Title（参考訳）: アラブ系イスラム継承事件におけるLLMの法的推論のベンチマーク
Authors: Nouar AlDahoul, Yasir Zaki,
Abstract要約: イスラム教の継承領域は、相続人間の株式の公平な分配を確保するために、ムスリムにとって重要な存在である。大規模言語モデル(LLM)の最近の進歩は、複雑な法的推論タスクを支援する可能性への関心を喚起している。本研究は、イスラム継承法を解釈・適用するための最先端のLDMの推論能力を評価する。
参考スコア（独自算出の注目度）: 1.3521447196536418
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Islamic inheritance domain holds significant importance for Muslims to ensure fair distribution of shares between heirs. Manual calculation of shares under numerous scenarios is complex, time-consuming, and error-prone. Recent advancements in Large Language Models (LLMs) have sparked interest in their potential to assist with complex legal reasoning tasks. This study evaluates the reasoning capabilities of state-of-the-art LLMs to interpret and apply Islamic inheritance laws. We utilized the dataset proposed in the ArabicNLP QIAS 2025 challenge, which includes inheritance case scenarios given in Arabic and derived from Islamic legal sources. Various base and fine-tuned models, are assessed on their ability to accurately identify heirs, compute shares, and justify their reasoning in alignment with Islamic legal principles. Our analysis reveals that the proposed majority voting solution, leveraging three base models (Gemini Flash 2.5, Gemini Pro 2.5, and GPT o3), outperforms all other models that we utilized across every difficulty level. It achieves up to 92.7% accuracy and secures the third place overall in Task 1 of the Qias 2025 challenge.
Abstract（参考訳）: イスラム教の継承領域は、相続人間の株式の公平な分配を確保するために、ムスリムにとって重要な存在である。多数のシナリオ下での共有のマニュアル計算は複雑で時間がかかり、エラーが発生しやすい。大規模言語モデル(LLM)の最近の進歩は、複雑な法的推論タスクを支援する可能性への関心を喚起している。本研究は、イスラム継承法を解釈・適用するための最先端のLDMの推論能力を評価する。我々はアラビアNLP QIAS 2025チャレンジで提案されたデータセットを利用した。様々な基礎と微調整されたモデルは、相続人を正確に識別し、共有を計算し、イスラームの法原則に従って彼らの推論を正当化する能力に基づいて評価される。我々の分析によると、提案された多数決ソリューションは、3つのベースモデル(Gemini Flash 2.5、Gemini Pro 2.5、GPT o3)を利用しており、あらゆる難易度で使用した他のモデルよりも優れています。 92.7%の精度を達成し、Qias 2025チャレンジの第1タスクで第3位を確保している。

関連論文リスト

MizanQA: Benchmarking Large Language Models on Moroccan Legal Question Answering [13.01152821327721]
本稿では,大規模言語モデル(LLM)を評価するベンチマークであるMizanQaを紹介する。このデータセットは、現代標準アラビア語、イスラムマリキ法、モロッコの慣習法、フランスの法的な影響に基づいている。多言語とアラビア語にフォーカスしたLLMによるベンチマーク実験は、かなりの性能差を示している。
論文参考訳（メタデータ） (2025-08-22T13:04:43Z)
QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning [1.0152838128195467]
我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。 GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
論文参考訳（メタデータ） (2025-08-20T10:29:55Z)
Benchmarking the Medical Understanding and Reasoning of Large Language Models in Arabic Healthcare Tasks [1.3521447196536418]
本研究では、現在最先端の大規模言語モデルが、アラビア語の医療知識を如何に示し、具体化しているかについて検討する。我々は、MedArabiQ2025トラックのアラビアNLP AraHealthQAチャレンジで提案された医療データセットを用いて、複数のLCMをベンチマークした。その結果, 正解予測精度の有意な変動と, 生成した解のセマンティックアライメントの低変化が明らかになった。
論文参考訳（メタデータ） (2025-08-13T10:41:17Z)
Sacred or Synthetic? Evaluating LLM Reliability and Abstention for Religious Questions [10.53116395328794]
我々は、アラビア語と英語の4つの主要なスンニ学派によって明確に分類された、LLMが生成するイスラム支配に焦点を当てた新しいベンチマークであるFiqhQAを紹介した。我々のゼロショットと棄権実験は、LLM、言語、および法的な思考の流派間で大きな変化を示します。我々の知る限りでは、この研究は、よりきめ細かいイスラム特有の支配世代のための LLMs の有効性をベンチマークし、イスラムクエリの棄権を評価する最初の研究である。
論文参考訳（メタデータ） (2025-08-04T07:27:26Z)
LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文参考訳（メタデータ） (2025-05-19T08:48:12Z)
Can Large Language Models Predict the Outcome of Judicial Decisions? [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において例外的な機能を示す。 LLaMA-3.2-3B や LLaMA-3.1-8B を含む最先端のオープンソース LLM を様々な構成でベンチマークする。本結果は,タスク固有のコンテキストにおいて,細調整された小型モデルが大規模モデルに匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2025-01-15T11:32:35Z)
MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文参考訳（メタデータ） (2024-06-04T08:35:04Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。