論文の概要: From RAG to Agentic RAG for Faithful Islamic Question Answering
- arxiv url: http://arxiv.org/abs/2601.07528v1
- Date: Mon, 12 Jan 2026 13:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.4089
- Title: From RAG to Agentic RAG for Faithful Islamic Question Answering
- Title(参考訳): RAGからエージェントRAGへ
- Authors: Gagan Bhatia, Hamdy Mubarak, Mustafa Jarrar, George Mikros, Fadi Zaraket, Mahmoud Alhirthani, Mutaz Al-Khatib, Logan Cochrane, Kareem Darwish, Rashid Yahiaoui, Firoj Alam,
- Abstract要約: ISLAMICFAITHQAは、3,810itemのバイリンガル(アラビア語/英語)生成ベンチマークであり、原子シングルゴールドの回答である。
我々はまた,反復的証拠探索と回答のための構造化ツールコールを用いたエージェント的クラングラウンドフレームワーク(エージェントRAG)を開発した。
- 参考スコア(独自算出の注目度): 12.67590523116037
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLMs are increasingly used for Islamic question answering, where ungrounded responses may carry serious religious consequences. Yet standard MCQ/MRC-style evaluations do not capture key real-world failure modes, notably free-form hallucinations and whether models appropriately abstain when evidence is lacking. To shed a light on this aspect we introduce ISLAMICFAITHQA, a 3,810-item bilingual (Arabic/English) generative benchmark with atomic single-gold answers, which enables direct measurement of hallucination and abstention. We additionally developed an end-to-end grounded Islamic modelling suite consisting of (i) 25K Arabic text-grounded SFT reasoning pairs, (ii) 5K bilingual preference samples for reward-guided alignment, and (iii) a verse-level Qur'an retrieval corpus of $\sim$6k atomic verses (ayat). Building on these resources, we develop an agentic Quran-grounding framework (agentic RAG) that uses structured tool calls for iterative evidence seeking and answer revision. Experiments across Arabic-centric and multilingual LLMs show that retrieval improves correctness and that agentic RAG yields the largest gains beyond standard RAG, achieving state-of-the-art performance and stronger Arabic-English robustness even with a small model (i.e., Qwen3 4B). We will make the experimental resources and datasets publicly available for the community.
- Abstract(参考訳): LLMはイスラム教の質問応答にますます使われており、未解決の回答は深刻な宗教的結果をもたらす可能性がある。
しかし、MCQ/MRCスタイルの標準的な評価では、特に自由形式の幻覚や、証拠が欠如している場合のモデルが適切に禁じられているかどうかなど、重要な現実の障害モードを捉えていない。
ISLAMICFAITHQAは、3,810itemのバイリンガル(アラビア語/英語)生成ベンチマークで、原子シングルゴールドの回答を出力し、幻覚と禁忌の直接測定を可能にする。
我々はまた、エンド・ツー・エンドのイスラムモデリング・スイートを開発した。
(i)アラビア文字地上SFT推論ペア25K
(二)報酬誘導アライメントのための5Kバイリンガル選好サンプル及び
(iii)$\sim$6kの原子詩検索コーパス(アヤト)。
これらの資源を基盤として,構造化ツールコールを用いたエージェント的クラングラウンドフレームワーク(agentic RAG)を開発し,反復的証拠検索と回答を行う。
アラビア中心および多言語での実験では、検索は正しさを向上し、エージェントRAGは標準的なRAGを超える最大の利益をもたらし、小さなモデル(Qwen3 4B)でさえ最先端のパフォーマンスとより強いアラビア英語のロバスト性を達成する。
実験的なリソースとデータセットをコミュニティに公開します。
関連論文リスト
- DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - FARSIQA: Faithful and Advanced RAG System for Islamic Question Answering [0.0]
本稿では,ペルシア・イスラム領域におけるFARSIQAの導入について紹介する。
FARSIQAは、我々の革新的なFAIR-RAGアーキテクチャの上に構築されています。
論文 参考訳(メタデータ) (2025-10-29T15:25:34Z) - Can LLMs Write Faithfully? An Agent-Based Evaluation of LLM-generated Islamic Content [1.922162958936778]
大きな言語モデルはイスラム教の指導にますます使われるが、テキストを誤って引用したり、法学を誤用したり、文化的に矛盾した反応を生んだりするリスクがある。
GPT-4o、Ansari AI、Fanarの評価を、真正のイスラムブログからのプロンプトでパイロットする。
GPT-4oはイスラムの正確さ(3.93)とCitation(3.38)、Ansari AI(3.68, 3.32)、Fanar Lagged(2.76, 1.82)で最高点を記録した。
論文 参考訳(メタデータ) (2025-10-28T14:05:55Z) - Beyond MCQ: An Open-Ended Arabic Cultural QA Benchmark with Dialect Variants [7.228273711234901]
大きな言語モデル(LLM)は、日々の質問に答えるためにますます使われています。
文化的な基盤と方言のコンテンツに関する彼らのパフォーマンスは、言語間で不均一なままである。
本稿では,現代標準アラビア語(MSA)多重選択質問(MCQ)を英語およびいくつかのアラビア方言に翻訳する包括的手法を提案する。
論文 参考訳(メタデータ) (2025-10-28T11:52:51Z) - AURA Score: A Metric For Holistic Audio Question Answering Evaluation [57.042210272137396]
AQAメトリクスのシステマティックなベンチマークを可能にするために、AQEvalを導入します。
これはこの種の最初のベンチマークであり、その正確さと妥当性のために、複数の人間が注釈付けした10kモデル応答で構成されている。
第2に、既存のAQAメトリクスをAQEval上で総合的に分析し、人間の判断と弱い相関を明らかにする。
第3に、オープンなモデル応答をよりよく評価するための新しい指標であるAURAスコアを提案する。
論文 参考訳(メタデータ) (2025-10-06T15:41:34Z) - HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。
ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。
我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文 参考訳(メタデータ) (2025-08-03T15:53:01Z) - Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models [0.18846515534317265]
汎用大規模言語モデル(LLM)は、しばしば幻覚に苦しむ。
この課題は、応答の正確さ、妥当性、忠実さを維持しながらドメイン固有の知識を統合するシステムの必要性を強調している。
本研究は,114サラーの意味,歴史的文脈,質など,クラーニック・サラーの記述的データセットを利用する。
モデルは、文脈関連性、回答忠実性、回答関連性という、人間の評価者によって設定された3つの重要な指標を用いて評価される。
論文 参考訳(メタデータ) (2025-03-20T13:26:30Z) - Cross-Language Approach for Quranic QA [1.0124625066746595]
クルアーンのQAシステムは、世界中の10億人以上の人々のための神聖なテキストであるクルアーンの深い理解を促進するため、重要な重要性を保っている。
これらのシステムは、現代標準アラビア語で書かれた質問と、古典アラビア語で書かれたクラーン語の詩で見つかった回答の言語的相違など、固有の課題に直面している。
我々は、機械翻訳を通じてデータセットを拡張して強化し、アラビア語の質問を英語に翻訳し、アラビア語の質問を言い換えて言語的多様性を創出し、クァラン語の英訳から回答を抽出し、多言語学習要件に適合させることにより、クロスランゲージのアプローチを採用する。
論文 参考訳(メタデータ) (2025-01-29T07:13:27Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。