Fugu-MT 論文翻訳(概要): IslamicMMLU: A Benchmark for Evaluating LLMs on Islamic Knowledge

論文の概要: IslamicMMLU: A Benchmark for Evaluating LLMs on Islamic Knowledge

arxiv url: http://arxiv.org/abs/2603.23750v1
Date: Tue, 24 Mar 2026 22:18:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.039717
Title: IslamicMMLU: A Benchmark for Evaluating LLMs on Islamic Knowledge
Title（参考訳）: ISMMLU: イスラム知識に基づくLLMの評価ベンチマーク
Authors: Ali Abdelaal, Mohammed Nader Al Haffar, Mahmoud Fawzi, Walid Magdy,
Abstract要約: 私たちは、Quran、Hadith、Fiqhの3つのトラックにまたがる10,013の多重選択質問のベンチマークであるIslamMMLUを紹介します。各トラックは、イスラム知識の異なる側面を扱うLLMの機能を調べるために、複数の種類の質問で構成されている。このベンチマークは、ILMを評価するためのIslamMMLUパブリックリーダーボードを作成するために使用される。
参考スコア（独自算出の注目度）: 6.894744675083236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models are increasingly consulted for Islamic knowledge, yet no comprehensive benchmark evaluates their performance across core Islamic disciplines. We introduce IslamicMMLU, a benchmark of 10,013 multiple-choice questions spanning three tracks: Quran (2,013 questions), Hadith (4,000 questions), and Fiqh (jurisprudence, 4,000 questions). Each track is formed of multiple types of questions to examine LLMs capabilities handling different aspects of Islamic knowledge. The benchmark is used to create the IslamicMMLU public leaderboard for evaluating LLMs, and we initially evaluate 26 LLMs, where their averaged accuracy across the three tracks varied between 39.8\% to 93.8\% (by Gemini 3 Flash). The Quran track shows the widest span (99.3\% to 32.4\%), while the Fiqh track includes a novel madhab (Islamic school of jurisprudence) bias detection task revealing variable school-of-thought preferences across models. Arabic-specific models show mixed results, but they all underperform compared to frontier models. The evaluation code and leaderboard are made publicly available.
Abstract（参考訳）: 大規模な言語モデルは、イスラム教の知識のためにますます参考にされているが、コアイスラムの分野にわたるパフォーマンスを評価する包括的なベンチマークは存在しない。私たちは、Quran (2,013の質問)、Hadith (4,000の質問)、Fiqh (4000の質問)の3つのトラックにまたがる10,013の多重選択質問のベンチマークであるIslamMMLUを紹介した。各トラックは、イスラム知識の異なる側面を扱うLLMの機能を調べるために、複数の種類の質問で構成されている。このベンチマークは、LSMを評価するためのIslamMMLUの公開リーダーボードを作成するために使用され、まず最初に26個のLCMを評価し、この3トラックの平均精度は39.8\%から93.8\%(ジェミニ3フラッシュ)に変化した。クァランのトラックは最も広い範囲(99.3\%から32.4\%)を示すが、フィフのトラックには新しいマッドハーブ(イスラム法学派)の偏見検出タスクが含まれており、モデル間で異なる派閥の好みを示す。アラビア固有のモデルは、混合結果を示すが、フロンティアモデルと比べてすべて性能が劣っている。評価コードとリーダボードは公開されています。

関連論文リスト

IslamicLegalBench: Evaluating LLMs Knowledge and Reasoning of Islamic Law Across 1,200 Years of Islamic Pluralist Legal Traditions [1.3052252174353483]
ISLegalBenchは、イスラム法学の7つの学派でLSMを評価する最初のベンチマークである。最良のモデルは68%の正しさしか達成せず、幻覚は21%である。ショットプロンプトは最小限のゲインを提供し、9つのモデルのうち2つしか改善していない。
論文参考訳（メタデータ） (2026-02-02T10:30:59Z)
DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。 MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文参考訳（メタデータ） (2025-10-31T15:17:06Z)
Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content [1.922162958936778]
大きな言語モデルはイスラム教の指導にますます使われるが、テキストを誤って引用したり、法学を誤用したり、文化的に矛盾した反応を生んだりするリスクがある。 GPT-4o、Ansari AI、Fanarの評価を、真正のイスラムブログからのプロンプトでパイロットする。 GPT-4oはイスラムの正確さ(3.93)とCitation(3.38)、Ansari AI(3.68, 3.32)、Fanar Lagged(2.76, 1.82)で最高点を記録した。
論文参考訳（メタデータ） (2025-10-28T14:05:55Z)
Sacred or Synthetic? Evaluating LLM Reliability and Abstention for Religious Questions [10.53116395328794]
我々は、アラビア語と英語の4つの主要なスンニ学派によって明確に分類された、LLMが生成するイスラム支配に焦点を当てた新しいベンチマークであるFiqhQAを紹介した。我々のゼロショットと棄権実験は、LLM、言語、および法的な思考の流派間で大きな変化を示します。我々の知る限りでは、この研究は、よりきめ細かいイスラム特有の支配世代のための LLMs の有効性をベンチマークし、イスラムクエリの棄権を評価する最初の研究である。
論文参考訳（メタデータ） (2025-08-04T07:27:26Z)
Humanity's Last Exam [521.5879252045291]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。数学、人文科学、自然科学など、数十の分野にまたがる2,500の質問で構成されている。各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文参考訳（メタデータ） (2025-01-24T05:27:46Z)
The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (2024-01-01T14:02:27Z)
Building Domain-Specific LLMs Faithful To The Islamic Worldview: Mirage or Technical Possibility? [0.0]
大規模言語モデル(LLM)は、多くの自然言語理解ユースケースで顕著なパフォーマンスを示している。イスラム教とその表現の文脈において、その信仰と教えの正確かつ事実的な表現は、クルランとスンナに根ざしている。本研究は、イスラム世界観に忠実なドメイン固有のLLMを構築することの課題に焦点を当てる。
論文参考訳（メタデータ） (2023-12-11T18:59:09Z)
QASiNa: Religious Domain Question Answering using Sirah Nabawiyah [0.0]
イスラム教では、情報ソースを厳格に規制し、そのソースに対して解釈や触覚を与えることができる。 LLMが独自の解釈に基づいて回答を生成するアプローチは、タフザーの概念と似ている。インドネシア語でSirah Nabawiyah文学から収集された新しいデータセットであるQASiNaデータセットを提案する。
論文参考訳（メタデータ） (2023-10-12T07:52:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。