論文の概要: Two-Stage Quranic QA via Ensemble Retrieval and Instruction-Tuned Answer Extraction
- arxiv url: http://arxiv.org/abs/2508.06971v1
- Date: Sat, 09 Aug 2025 12:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.63494
- Title: Two-Stage Quranic QA via Ensemble Retrieval and Instruction-Tuned Answer Extraction
- Title(参考訳): アンサンブル検索と指示調整型アンサー抽出による2段階量子QA
- Authors: Mohamed Basem, Islam Oshallah, Ali Hamdi, Khaled Shaban, Hozaifa Kassab,
- Abstract要約: Quranic Question Answeringは、古典アラビア語の言語的複雑さと宗教テキストの意味的な豊かさによって、ユニークな課題を提起している。
本稿では,経路抽出と解答抽出の両方に対処する新しい2段階フレームワークを提案する。
提案手法では, MAP@10が0.3128, MRR@10が0.5763, pAP@10が0.669である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quranic Question Answering presents unique challenges due to the linguistic complexity of Classical Arabic and the semantic richness of religious texts. In this paper, we propose a novel two-stage framework that addresses both passage retrieval and answer extraction. For passage retrieval, we ensemble fine-tuned Arabic language models to achieve superior ranking performance. For answer extraction, we employ instruction-tuned large language models with few-shot prompting to overcome the limitations of fine-tuning on small datasets. Our approach achieves state-of-the-art results on the Quran QA 2023 Shared Task, with a MAP@10 of 0.3128 and MRR@10 of 0.5763 for retrieval, and a pAP@10 of 0.669 for extraction, substantially outperforming previous methods. These results demonstrate that combining model ensembling and instruction-tuned language models effectively addresses the challenges of low-resource question answering in specialized domains.
- Abstract(参考訳): Quranic Question Answeringは、古典アラビア語の言語的複雑さと宗教テキストの意味的な豊かさによって、ユニークな課題を提起している。
本稿では,経路抽出と解答抽出の両方に対処する新しい2段階フレームワークを提案する。
通訳検索では、より優れたランク付け性能を達成するために、微調整のアラビア語モデルをアンサンブルする。
回答抽出には,小データセット上での微調整の限界を克服するために,少数ショットの命令調整付き大規模言語モデルを用いる。
提案手法は, MAP@10が0.3128, MRR@10が0.5763であり, pAP@10が0.669であり, 従来よりも大幅に優れていた。
これらの結果から、モデルアンサンブルと命令調整言語モデルを組み合わせることで、特定領域における低リソース質問応答の課題に効果的に対処できることが示唆された。
関連論文リスト
- Few-Shot Prompting for Extractive Quranic QA with Instruction-Tuned LLMs [1.0124625066746595]
複雑な言語、独特な用語、そしてテキストにおける深い意味に関する課題に対処する。
2つ目は、GeminiやDeepSeekのような命令調整された大きな言語モデルで、ほとんどショットプロンプトを使用しない。
スパン抽出のための特殊アラビアプロンプトフレームワークが開発されている。
論文 参考訳(メタデータ) (2025-08-08T08:02:59Z) - HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。
ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。
我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文 参考訳(メタデータ) (2025-08-03T15:53:01Z) - Cross-Language Approach for Quranic QA [1.0124625066746595]
クルアーンのQAシステムは、世界中の10億人以上の人々のための神聖なテキストであるクルアーンの深い理解を促進するため、重要な重要性を保っている。
これらのシステムは、現代標準アラビア語で書かれた質問と、古典アラビア語で書かれたクラーン語の詩で見つかった回答の言語的相違など、固有の課題に直面している。
我々は、機械翻訳を通じてデータセットを拡張して強化し、アラビア語の質問を英語に翻訳し、アラビア語の質問を言い換えて言語的多様性を創出し、クァラン語の英訳から回答を抽出し、多言語学習要件に適合させることにより、クロスランゲージのアプローチを採用する。
論文 参考訳(メタデータ) (2025-01-29T07:13:27Z) - Optimized Quran Passage Retrieval Using an Expanded QA Dataset and Fine-Tuned Language Models [0.0]
Qur'an QA 2023の共有タスクデータセットには、弱いモデル検索を伴う限られた数の質問があった。
251の質問を含む最初のデータセットをレビューし、629の質問に拡張し、質問の多様化と修正を行った。
AraBERT、RoBERTa、CAMeLBERT、AraELECTRA、BERTなど、微調整されたトランスモデルを実験する。
論文 参考訳(メタデータ) (2024-12-16T04:03:58Z) - HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew [12.320161893898735]
HeSum(ヘサム)は、現代ヘブライ語で抽象的なテキスト要約のために設計されたベンチマークである。
HeSumは、プロが書いたヘブライ語ニュースサイトから入手した1万記事と1万記事のペアで構成されている。
言語学的分析は、ヘサムの高い抽象性とユニークな形態的課題を裏付ける。
論文 参考訳(メタデータ) (2024-06-06T09:36:14Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy
Qur'an Using a Post-Processed Ensemble of BERT-based Models [0.0]
アラビア語は神聖なクルアーンの言語であり、世界中の18億人の人々の神聖なテキストである。
本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。
本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。
論文 参考訳(メタデータ) (2022-06-03T13:00:48Z) - SeqZero: Few-shot Compositional Semantic Parsing with Sequential Prompts
and Zero-shot Models [57.29358388475983]
近年の研究では、事前訓練された言語モデルと標準発話を併用する有望な結果が示されている。
本稿では,SeqZeroという構文解析手法を提案する。
特に、SeqZeroは、提案した制約付き再スケーリングを備えたアンサンブルによって、両方のモデルのメリットを明らかにします。
論文 参考訳(メタデータ) (2022-05-15T21:13:15Z) - Joint Passage Ranking for Diverse Multi-Answer Retrieval [56.43443577137929]
質問に対する複数の異なる回答をカバーするために、パスの取得を必要とする探索不足の問題であるマルチアンサー検索について検討する。
モデルが別の有効な答えを逃す費用で同じ答えを含む通路を繰り返すべきではないので、このタスクは、検索された通路の共同モデリングを必要とします。
本稿では,再順位に着目したジョイントパス検索モデルであるJPRを紹介する。
回収された通路の合同確率をモデル化するために、JPRは、新しい訓練および復号アルゴリズムを備えた通路のシーケンスを選択する自動回帰リタイナを利用する。
論文 参考訳(メタデータ) (2021-04-17T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。