論文の概要: A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text
- arxiv url: http://arxiv.org/abs/2409.09844v1
- Date: Sun, 15 Sep 2024 19:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 17:10:28.409951
- Title: A Benchmark Dataset with Larger Context for Non-Factoid Question Answering over Islamic Text
- Title(参考訳): イスラムテキストに対する非ファクトイド質問応答のための文脈を拡大したベンチマークデータセット
- Authors: Faiza Qamar, Seemab Latif, Rabia Latif,
- Abstract要約: 本稿では,Quranic Tafsir と Ahadith の領域内で質問応答を目的とした包括的データセットについて紹介する。
このデータセットは、73,000以上の質問応答ペアからなる堅牢なコレクションで構成されており、この特殊なドメインで報告されている最大のデータセットである。
本稿では,データセットのコントリビューションを強調しながら,その後の人的評価から,既存の自動評価手法の限界に関する批判的な洞察が得られた。
- 参考スコア(独自算出の注目度): 0.16385815610837165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accessing and comprehending religious texts, particularly the Quran (the sacred scripture of Islam) and Ahadith (the corpus of the sayings or traditions of the Prophet Muhammad), in today's digital era necessitates efficient and accurate Question-Answering (QA) systems. Yet, the scarcity of QA systems tailored specifically to the detailed nature of inquiries about the Quranic Tafsir (explanation, interpretation, context of Quran for clarity) and Ahadith poses significant challenges. To address this gap, we introduce a comprehensive dataset meticulously crafted for QA purposes within the domain of Quranic Tafsir and Ahadith. This dataset comprises a robust collection of over 73,000 question-answer pairs, standing as the largest reported dataset in this specialized domain. Importantly, both questions and answers within the dataset are meticulously enriched with contextual information, serving as invaluable resources for training and evaluating tailored QA systems. However, while this paper highlights the dataset's contributions and establishes a benchmark for evaluating QA performance in the Quran and Ahadith domains, our subsequent human evaluation uncovered critical insights regarding the limitations of existing automatic evaluation techniques. The discrepancy between automatic evaluation metrics, such as ROUGE scores, and human assessments became apparent. The human evaluation indicated significant disparities: the model's verdict consistency with expert scholars ranged between 11% to 20%, while its contextual understanding spanned a broader spectrum of 50% to 90%. These findings underscore the necessity for evaluation techniques that capture the nuances and complexities inherent in understanding religious texts, surpassing the limitations of traditional automatic metrics.
- Abstract(参考訳): 宗教文書、特にクルラン(イスラム教の聖典)やアハディス(預言者ムハンマドの言葉や伝統のコーパス)へのアクセスと解釈は、今日のデジタル時代には、効率的で正確なQAシステムを必要としている。
しかし、QAシステムの不足は、クアニック・タフシル(説明、解釈、明確化のためのクアランの文脈)とアハディスに関する質問の詳細な性質に特化している。
このギャップに対処するために、Quranic Tafsir と Ahadith のドメイン内で、QA 目的のために慎重に構築された包括的なデータセットを紹介します。
このデータセットは、73,000以上の質問応答ペアからなる堅牢なコレクションで構成されており、この特殊なドメインで報告されている最大のデータセットである。
重要なことは、データセット内の質問と回答の両方が文脈情報に精通しており、トレーニングと調整されたQAシステム評価のための貴重なリソースとして役立ちます。
しかし,本論文では,データセットのコントリビューションを強調し,QuranドメインとAhadithドメインのQAパフォーマンスを評価するためのベンチマークを確立するとともに,その後の人的評価から,既存の自動評価手法の限界に関する重要な洞察を得た。
ROUGEスコアなどの自動評価指標と人的評価の相違が明らかになった。
モデルと専門家との評定の整合性は11%から20%であり、文脈的理解は50%から90%の範囲に及んだ。
これらの知見は、伝統的な自動メトリクスの限界を超越して、宗教的テキストを理解するのに固有のニュアンスや複雑さを捉えるための評価技術の必要性を浮き彫りにした。
関連論文リスト
- An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文 参考訳(メタデータ) (2024-05-30T23:04:53Z) - InfoLossQA: Characterizing and Recovering Information Loss in Text Simplification [60.10193972862099]
本研究は, 簡易化による情報損失を問合せ・問合せ形式で特徴づけ, 回復する枠組みを提案する。
QAペアは、読者がテキストの知識を深めるのに役立つように設計されている。
論文 参考訳(メタデータ) (2024-01-29T19:00:01Z) - Building Domain-Specific LLMs Faithful To The Islamic Worldview: Mirage
or Technical Possibility? [0.0]
大規模言語モデル(LLM)は、多くの自然言語理解ユースケースで顕著なパフォーマンスを示している。
イスラム教とその表現の文脈において、その信仰と教えの正確かつ事実的な表現は、クルランとスンナに根ざしている。
本研究は、イスラム世界観に忠実なドメイン固有のLLMを構築することの課題に焦点を当てる。
論文 参考訳(メタデータ) (2023-12-11T18:59:09Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Fantastic Questions and Where to Find Them: FairytaleQA -- An Authentic
Dataset for Narrative Comprehension [136.82507046638784]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。
FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文 参考訳(メタデータ) (2022-03-26T00:20:05Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - SubjQA: A Dataset for Subjectivity and Review Comprehension [52.13338191442912]
主観性と質問応答(QA)の関係について検討する。
主観性は、主観性とQAパフォーマンスのより複雑な相互作用があるにもかかわらず、QAの場合においても重要な特徴であることがわかった。
顧客レビューに基づいた英語のQAデータセット(SubjQA)をリリースし、6つの異なるドメインにまたがる質問や回答に対する主観的アノテーションを含む。
論文 参考訳(メタデータ) (2020-04-29T15:59:30Z) - A Framework for Evaluation of Machine Reading Comprehension Gold
Standards [7.6250852763032375]
本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。
語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
論文 参考訳(メタデータ) (2020-03-10T11:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。