論文の概要: Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content
- arxiv url: http://arxiv.org/abs/2510.24438v1
- Date: Tue, 28 Oct 2025 14:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.217452
- Title: Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content
- Title(参考訳): LLMは忠実に書けるか? : LLM生成イスラムコンテンツのエージェントによる評価
- Authors: Abdullah Mushtaq, Rafay Naeem, Ezieddin Elmahjub, Ibrahim Ghaznavi, Shawqi Al-Maliki, Mohamed Abdallah, Ala Al-Fuqaha, Junaid Qadir,
- Abstract要約: 大きな言語モデルはイスラム教の指導にますます使われるが、テキストを誤って引用したり、法学を誤用したり、文化的に矛盾した反応を生んだりするリスクがある。
GPT-4o、Ansari AI、Fanarの評価を、真正のイスラムブログからのプロンプトでパイロットする。
GPT-4oはイスラムの正確さ(3.93)とCitation(3.38)、Ansari AI(3.68, 3.32)、Fanar Lagged(2.76, 1.82)で最高点を記録した。
- 参考スコア(独自算出の注目度): 1.922162958936778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used for Islamic guidance, but risk misquoting texts, misapplying jurisprudence, or producing culturally inconsistent responses. We pilot an evaluation of GPT-4o, Ansari AI, and Fanar on prompts from authentic Islamic blogs. Our dual-agent framework uses a quantitative agent for citation verification and six-dimensional scoring (e.g., Structure, Islamic Consistency, Citations) and a qualitative agent for five-dimensional side-by-side comparison (e.g., Tone, Depth, Originality). GPT-4o scored highest in Islamic Accuracy (3.93) and Citation (3.38), Ansari AI followed (3.68, 3.32), and Fanar lagged (2.76, 1.82). Despite relatively strong performance, models still fall short in reliably producing accurate Islamic content and citations -- a paramount requirement in faith-sensitive writing. GPT-4o had the highest mean quantitative score (3.90/5), while Ansari AI led qualitative pairwise wins (116/200). Fanar, though trailing, introduces innovations for Islamic and Arabic contexts. This study underscores the need for community-driven benchmarks centering Muslim perspectives, offering an early step toward more reliable AI in Islamic knowledge and other high-stakes domains such as medicine, law, and journalism.
- Abstract(参考訳): 大きな言語モデルはイスラム教の指導にますます使われるが、テキストを誤って引用したり、法学を誤用したり、文化的に矛盾した反応を生んだりするリスクがある。
GPT-4o、Ansari AI、Fanarの評価を、真正のイスラムブログからのプロンプトでパイロットする。
両エージェント・フレームワークは、引用検証と6次元スコアリングのための定量的エージェント(例えば、構造、イスラム一貫性、Citations)と5次元比較のための定性的エージェント(例えば、トーン、深さ、原性)を用いている。
GPT-4oはイスラムの正確さ(3.93)とCitation(3.38)、Ansari AI(3.68, 3.32)、Fanar Lagged(2.76, 1.82)で最高点を記録した。
比較的高いパフォーマンスにもかかわらず、モデルはまだ正確で正確なイスラムのコンテンツや引用を確実に作り出すには不足している。
GPT-4oは平均的なスコア(3.90/5)で、Ansari AIは定性的なペアワイド(116/200)で勝利した。
ファナーは後を追っているが、イスラム教やアラビア語の文脈に革新をもたらす。
この研究は、ムスリムの視点を中心としたコミュニティ主導のベンチマークの必要性を強調し、イスラム知識や医学、法律、ジャーナリズムなどの高度な領域において、より信頼性の高いAIに向けた早期ステップを提供する。
関連論文リスト
- Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。
軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。
我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文 参考訳(メタデータ) (2025-09-17T14:19:28Z) - UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat [1.2788586581322734]
サウジのデータとAI機関は、アラビアに焦点を当てたモデルのファミリーである$allaM$を導入した。
最も有能な$ALLaM-34B$は、HUMAIN Chatを開発したHUMAINによって採用された。
本稿では,拡張されたUIレベルの$ALLaM-34B$について述べる。
論文 参考訳(メタデータ) (2025-08-24T14:32:15Z) - QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning [1.0152838128195467]
我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。
GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
論文 参考訳(メタデータ) (2025-08-20T10:29:55Z) - Sacred or Synthetic? Evaluating LLM Reliability and Abstention for Religious Questions [10.53116395328794]
我々は、アラビア語と英語の4つの主要なスンニ学派によって明確に分類された、LLMが生成するイスラム支配に焦点を当てた新しいベンチマークであるFiqhQAを紹介した。
我々のゼロショットと棄権実験は、LLM、言語、および法的な思考の流派間で大きな変化を示します。
我々の知る限りでは、この研究は、よりきめ細かいイスラム特有の支配世代のための LLMs の有効性をベンチマークし、イスラムクエリの棄権を評価する最初の研究である。
論文 参考訳(メタデータ) (2025-08-04T07:27:26Z) - AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic [0.0]
AraTrustはアラビア語でLarge Language Models(LLMs)の総合的信頼性ベンチマークである。
GPT-4は最も信頼できるLCMであり、特にAceGPT 7BやJais 13Bといったオープンソースモデルはベンチマークで60%のスコアを得るのに苦労しました。
論文 参考訳(メタデータ) (2024-03-14T00:45:24Z) - QASiNa: Religious Domain Question Answering using Sirah Nabawiyah [0.0]
イスラム教では、情報ソースを厳格に規制し、そのソースに対して解釈や触覚を与えることができる。
LLMが独自の解釈に基づいて回答を生成するアプローチは、タフザーの概念と似ている。
インドネシア語でSirah Nabawiyah文学から収集された新しいデータセットであるQASiNaデータセットを提案する。
論文 参考訳(メタデータ) (2023-10-12T07:52:19Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。