論文の概要: Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content
- arxiv url: http://arxiv.org/abs/2510.24438v1
- Date: Tue, 28 Oct 2025 14:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.217452
- Title: Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content
- Title(参考訳): LLMは忠実に書けるか? : LLM生成イスラムコンテンツのエージェントによる評価
- Authors: Abdullah Mushtaq, Rafay Naeem, Ezieddin Elmahjub, Ibrahim Ghaznavi, Shawqi Al-Maliki, Mohamed Abdallah, Ala Al-Fuqaha, Junaid Qadir,
- Abstract要約: 大きな言語モデルはイスラム教の指導にますます使われるが、テキストを誤って引用したり、法学を誤用したり、文化的に矛盾した反応を生んだりするリスクがある。
GPT-4o、Ansari AI、Fanarの評価を、真正のイスラムブログからのプロンプトでパイロットする。
GPT-4oはイスラムの正確さ(3.93)とCitation(3.38)、Ansari AI(3.68, 3.32)、Fanar Lagged(2.76, 1.82)で最高点を記録した。
- 参考スコア(独自算出の注目度): 1.922162958936778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used for Islamic guidance, but risk misquoting texts, misapplying jurisprudence, or producing culturally inconsistent responses. We pilot an evaluation of GPT-4o, Ansari AI, and Fanar on prompts from authentic Islamic blogs. Our dual-agent framework uses a quantitative agent for citation verification and six-dimensional scoring (e.g., Structure, Islamic Consistency, Citations) and a qualitative agent for five-dimensional side-by-side comparison (e.g., Tone, Depth, Originality). GPT-4o scored highest in Islamic Accuracy (3.93) and Citation (3.38), Ansari AI followed (3.68, 3.32), and Fanar lagged (2.76, 1.82). Despite relatively strong performance, models still fall short in reliably producing accurate Islamic content and citations -- a paramount requirement in faith-sensitive writing. GPT-4o had the highest mean quantitative score (3.90/5), while Ansari AI led qualitative pairwise wins (116/200). Fanar, though trailing, introduces innovations for Islamic and Arabic contexts. This study underscores the need for community-driven benchmarks centering Muslim perspectives, offering an early step toward more reliable AI in Islamic knowledge and other high-stakes domains such as medicine, law, and journalism.
- Abstract(参考訳): 大きな言語モデルはイスラム教の指導にますます使われるが、テキストを誤って引用したり、法学を誤用したり、文化的に矛盾した反応を生んだりするリスクがある。
GPT-4o、Ansari AI、Fanarの評価を、真正のイスラムブログからのプロンプトでパイロットする。
両エージェント・フレームワークは、引用検証と6次元スコアリングのための定量的エージェント(例えば、構造、イスラム一貫性、Citations)と5次元比較のための定性的エージェント(例えば、トーン、深さ、原性)を用いている。
GPT-4oはイスラムの正確さ(3.93)とCitation(3.38)、Ansari AI(3.68, 3.32)、Fanar Lagged(2.76, 1.82)で最高点を記録した。
比較的高いパフォーマンスにもかかわらず、モデルはまだ正確で正確なイスラムのコンテンツや引用を確実に作り出すには不足している。
GPT-4oは平均的なスコア(3.90/5)で、Ansari AIは定性的なペアワイド(116/200)で勝利した。
ファナーは後を追っているが、イスラム教やアラビア語の文脈に革新をもたらす。
この研究は、ムスリムの視点を中心としたコミュニティ主導のベンチマークの必要性を強調し、イスラム知識や医学、法律、ジャーナリズムなどの高度な領域において、より信頼性の高いAIに向けた早期ステップを提供する。
関連論文リスト
- IslamicLegalBench: Evaluating LLMs Knowledge and Reasoning of Islamic Law Across 1,200 Years of Islamic Pluralist Legal Traditions [1.3052252174353483]
ISLegalBenchは、イスラム法学の7つの学派でLSMを評価する最初のベンチマークである。
最良のモデルは68%の正しさしか達成せず、幻覚は21%である。
ショットプロンプトは最小限のゲインを提供し、9つのモデルのうち2つしか改善していない。
論文 参考訳(メタデータ) (2026-02-02T10:30:59Z) - From RAG to Agentic RAG for Faithful Islamic Question Answering [12.67590523116037]
ISLAMICFAITHQAは、3,810itemのバイリンガル(アラビア語/英語)生成ベンチマークであり、原子シングルゴールドの回答である。
我々はまた,反復的証拠探索と回答のための構造化ツールコールを用いたエージェント的クラングラウンドフレームワーク(エージェントRAG)を開発した。
論文 参考訳(メタデータ) (2026-01-12T13:28:28Z) - DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。
軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。
我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文 参考訳(メタデータ) (2025-09-17T14:19:28Z) - UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat [1.2788586581322734]
サウジのデータとAI機関は、アラビアに焦点を当てたモデルのファミリーである$allaM$を導入した。
最も有能な$ALLaM-34B$は、HUMAIN Chatを開発したHUMAINによって採用された。
本稿では,拡張されたUIレベルの$ALLaM-34B$について述べる。
論文 参考訳(メタデータ) (2025-08-24T14:32:15Z) - QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning [1.0152838128195467]
我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。
GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
論文 参考訳(メタデータ) (2025-08-20T10:29:55Z) - Sacred or Synthetic? Evaluating LLM Reliability and Abstention for Religious Questions [10.53116395328794]
我々は、アラビア語と英語の4つの主要なスンニ学派によって明確に分類された、LLMが生成するイスラム支配に焦点を当てた新しいベンチマークであるFiqhQAを紹介した。
我々のゼロショットと棄権実験は、LLM、言語、および法的な思考の流派間で大きな変化を示します。
我々の知る限りでは、この研究は、よりきめ細かいイスラム特有の支配世代のための LLMs の有効性をベンチマークし、イスラムクエリの棄権を評価する最初の研究である。
論文 参考訳(メタデータ) (2025-08-04T07:27:26Z) - AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic [0.0]
AraTrustはアラビア語でLarge Language Models(LLMs)の総合的信頼性ベンチマークである。
GPT-4は最も信頼できるLCMであり、特にAceGPT 7BやJais 13Bといったオープンソースモデルはベンチマークで60%のスコアを得るのに苦労しました。
論文 参考訳(メタデータ) (2024-03-14T00:45:24Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - QASiNa: Religious Domain Question Answering using Sirah Nabawiyah [0.0]
イスラム教では、情報ソースを厳格に規制し、そのソースに対して解釈や触覚を与えることができる。
LLMが独自の解釈に基づいて回答を生成するアプローチは、タフザーの概念と似ている。
インドネシア語でSirah Nabawiyah文学から収集された新しいデータセットであるQASiNaデータセットを提案する。
論文 参考訳(メタデータ) (2023-10-12T07:52:19Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。