論文の概要: Sacred or Synthetic? Evaluating LLM Reliability and Abstention for Religious Questions
- arxiv url: http://arxiv.org/abs/2508.08287v1
- Date: Mon, 04 Aug 2025 07:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.137631
- Title: Sacred or Synthetic? Evaluating LLM Reliability and Abstention for Religious Questions
- Title(参考訳): 聖なるか、合成的なか : 宗教的な質問に対するLLMの信頼性と無視性の評価
- Authors: Farah Atif, Nursultan Askarbekuly, Kareem Darwish, Monojit Choudhury,
- Abstract要約: 我々は、アラビア語と英語の4つの主要なスンニ学派によって明確に分類された、LLMが生成するイスラム支配に焦点を当てた新しいベンチマークであるFiqhQAを紹介した。
我々のゼロショットと棄権実験は、LLM、言語、および法的な思考の流派間で大きな変化を示します。
我々の知る限りでは、この研究は、よりきめ細かいイスラム特有の支配世代のための LLMs の有効性をベンチマークし、イスラムクエリの棄権を評価する最初の研究である。
- 参考スコア(独自算出の注目度): 10.53116395328794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the increasing usage of Large Language Models (LLMs) in answering questions in a variety of domains, their reliability and accuracy remain unexamined for a plethora of domains including the religious domains. In this paper, we introduce a novel benchmark FiqhQA focused on the LLM generated Islamic rulings explicitly categorized by the four major Sunni schools of thought, in both Arabic and English. Unlike prior work, which either overlooks the distinctions between religious school of thought or fails to evaluate abstention behavior, we assess LLMs not only on their accuracy but also on their ability to recognize when not to answer. Our zero-shot and abstention experiments reveal significant variation across LLMs, languages, and legal schools of thought. While GPT-4o outperforms all other models in accuracy, Gemini and Fanar demonstrate superior abstention behavior critical for minimizing confident incorrect answers. Notably, all models exhibit a performance drop in Arabic, highlighting the limitations in religious reasoning for languages other than English. To the best of our knowledge, this is the first study to benchmark the efficacy of LLMs for fine-grained Islamic school of thought specific ruling generation and to evaluate abstention for Islamic jurisprudence queries. Our findings underscore the need for task-specific evaluation and cautious deployment of LLMs in religious applications.
- Abstract(参考訳): 大きな言語モデル(LLM)が様々な領域で質問に答えるのに使われているにもかかわらず、その信頼性と正確性は、宗教ドメインを含む多くの領域で検討されていない。
本稿では、アラビア語と英語の4つの主要なスンニ派の思想によって明確に分類された、LLM生成のイスラム支配に焦点を当てた新しいベンチマークであるFiqhQAを紹介する。
宗教的な思考の流派の違いを軽視するか、禁忌行動を評価するのに失敗する以前の研究とは異なり、私たちはLSMをその正確性だけでなく、答えないときの認識能力にもとづいて評価する。
我々のゼロショットと棄権実験は、LLM、言語、および法的な思考の流派間で大きな変化を示します。
GPT-4oは他のモデルよりも精度が高いが、ジェミニとファナーは信頼性の低い答えを最小化するために優れた禁忌行動を示す。
特に、すべてのモデルはアラビア語のパフォーマンス低下を示し、英語以外の言語に対する宗教的推論の限界を強調している。
我々の知識を最大限に活用するために、この研究は、イスラム特定支配世代を微粒化したイスラーム学派に対する LLMs の有効性をベンチマークし、イスラーム法学クエリの棄却を評価するための最初の研究である。
本研究は,宗教的応用におけるLCMのタスク特化評価と慎重な展開の必要性を浮き彫りにした。
関連論文リスト
- Evaluating Vision-Language and Large Language Models for Automated Student Assessment in Indonesian Classrooms [5.076445852481039]
本研究は,インドネシアの6校の4年生を対象に,646人の受験者を対象に,最先端のVLMと複数のLDMの性能評価を行った。
以上の結果から,VLMは学生の筆跡の正確な認識に苦慮し,下流のLSMグレーディングにおける誤りの伝播につながることが示唆された。
論文 参考訳(メタデータ) (2025-06-05T09:41:09Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic [0.0]
AraTrustはアラビア語でLarge Language Models(LLMs)の総合的信頼性ベンチマークである。
GPT-4は最も信頼できるLCMであり、特にAceGPT 7BやJais 13Bといったオープンソースモデルはベンチマークで60%のスコアを得るのに苦労しました。
論文 参考訳(メタデータ) (2024-03-14T00:45:24Z) - Building Domain-Specific LLMs Faithful To The Islamic Worldview: Mirage
or Technical Possibility? [0.0]
大規模言語モデル(LLM)は、多くの自然言語理解ユースケースで顕著なパフォーマンスを示している。
イスラム教とその表現の文脈において、その信仰と教えの正確かつ事実的な表現は、クルランとスンナに根ざしている。
本研究は、イスラム世界観に忠実なドメイン固有のLLMを構築することの課題に焦点を当てる。
論文 参考訳(メタデータ) (2023-12-11T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。