論文の概要: Cross-Language Approach for Quranic QA
- arxiv url: http://arxiv.org/abs/2501.17449v1
- Date: Wed, 29 Jan 2025 07:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:19.688191
- Title: Cross-Language Approach for Quranic QA
- Title(参考訳): クラニックQAのためのクロスランゲージアプローチ
- Authors: Islam Oshallah, Mohamed Basem, Ali Hamdi, Ammar Mohammed,
- Abstract要約: クルアーンのQAシステムは、世界中の10億人以上の人々のための神聖なテキストであるクルアーンの深い理解を促進するため、重要な重要性を保っている。
これらのシステムは、現代標準アラビア語で書かれた質問と、古典アラビア語で書かれたクラーン語の詩で見つかった回答の言語的相違など、固有の課題に直面している。
我々は、機械翻訳を通じてデータセットを拡張して強化し、アラビア語の質問を英語に翻訳し、アラビア語の質問を言い換えて言語的多様性を創出し、クァラン語の英訳から回答を抽出し、多言語学習要件に適合させることにより、クロスランゲージのアプローチを採用する。
- 参考スコア(独自算出の注目度): 1.0124625066746595
- License:
- Abstract: Question answering systems face critical limitations in languages with limited resources and scarce data, making the development of robust models especially challenging. The Quranic QA system holds significant importance as it facilitates a deeper understanding of the Quran, a Holy text for over a billion people worldwide. However, these systems face unique challenges, including the linguistic disparity between questions written in Modern Standard Arabic and answers found in Quranic verses written in Classical Arabic, and the small size of existing datasets, which further restricts model performance. To address these challenges, we adopt a cross-language approach by (1) Dataset Augmentation: expanding and enriching the dataset through machine translation to convert Arabic questions into English, paraphrasing questions to create linguistic diversity, and retrieving answers from an English translation of the Quran to align with multilingual training requirements; and (2) Language Model Fine-Tuning: utilizing pre-trained models such as BERT-Medium, RoBERTa-Base, DeBERTa-v3-Base, ELECTRA-Large, Flan-T5, Bloom, and Falcon to address the specific requirements of Quranic QA. Experimental results demonstrate that this cross-language approach significantly improves model performance, with RoBERTa-Base achieving the highest MAP@10 (0.34) and MRR (0.52), while DeBERTa-v3-Base excels in Recall@10 (0.50) and Precision@10 (0.24). These findings underscore the effectiveness of cross-language strategies in overcoming linguistic barriers and advancing Quranic QA systems
- Abstract(参考訳): 質問応答システムは、限られたリソースと少ないデータを持つ言語において重要な制限に直面しており、堅牢なモデルの開発は特に困難である。
クルアーンのQAシステムは、世界中の10億人以上の人々のための神聖なテキストであるクルアーンの深い理解を促進するため、重要な重要性を持っている。
しかし、これらのシステムは、現代標準アラビア語で書かれた質問と、古典アラビア語で書かれたクラン語の詩で見つかった回答と、モデルの性能をさらに制限する既存のデータセットの小さなサイズとの言語的な相違など、固有の課題に直面している。
これらの課題に対処するため,(1)データセットの強化: アラビア語の質問を機械翻訳で拡大・強化し,アラビア語の質問を英語に翻訳し,言語的多様性を生み出すこと,(2)言語モデルファインタニング: BERT-Medium, RoBERTa-Base, DeBERTa-v3-Base, ELECTRA-Large, Flan-T5, Bloom, Falconといった事前学習モデルの活用。
実験の結果,RoBERTa-BaseはMAP@10(0.34)とMRR(0.52)に,DeBERTa-v3-BaseはRecall@10(0.50)とPrecision@10(0.24)に優れていた。
これらの知見は、言語障壁を克服し、クラニックQAシステムを進めるための言語横断戦略の有効性を裏付けるものである。
関連論文リスト
- Optimized Quran Passage Retrieval Using an Expanded QA Dataset and Fine-Tuned Language Models [0.0]
Qur'an QA 2023の共有タスクデータセットには、弱いモデル検索を伴う限られた数の質問があった。
251の質問を含む最初のデータセットをレビューし、629の質問に拡張し、質問の多様化と修正を行った。
AraBERT、RoBERTa、CAMeLBERT、AraELECTRA、BERTなど、微調整されたトランスモデルを実験する。
論文 参考訳(メタデータ) (2024-12-16T04:03:58Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Building Efficient and Effective OpenQA Systems for Low-Resource Languages [17.64851283209797]
低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は、機械翻訳されたラベル付きデータセットと関連する非構造化知識ソースを用いた、弱い監視である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案する。
論文 参考訳(メタデータ) (2024-01-07T22:11:36Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy
Qur'an Using a Post-Processed Ensemble of BERT-based Models [0.0]
アラビア語は神聖なクルアーンの言語であり、世界中の18億人の人々の神聖なテキストである。
本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。
本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。
論文 参考訳(メタデータ) (2022-06-03T13:00:48Z) - Pre-trained Transformer-Based Approach for Arabic Question Answering : A
Comparative Study [0.5801044612920815]
4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。
我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
論文 参考訳(メタデータ) (2021-11-10T12:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。