論文の概要: QASiNa: Religious Domain Question Answering using Sirah Nabawiyah
- arxiv url: http://arxiv.org/abs/2310.08102v1
- Date: Thu, 12 Oct 2023 07:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:22:11.984424
- Title: QASiNa: Religious Domain Question Answering using Sirah Nabawiyah
- Title(参考訳): QASiNa: Sirah Nabawiyah氏による宗教ドメイン質問回答
- Authors: Muhammad Razif Rizqullah (1), Ayu Purwarianti (1) and Alham Fikri Aji
(2) ((1) Bandung Institute of Technology, (2) Mohamed bin Zayed University of
Artificial Intelligence)
- Abstract要約: イスラム教では、情報ソースを厳格に規制し、そのソースに対して解釈や触覚を与えることができる。
LLMが独自の解釈に基づいて回答を生成するアプローチは、タフザーの概念と似ている。
インドネシア語でSirah Nabawiyah文学から収集された新しいデータセットであるQASiNaデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Nowadays, Question Answering (QA) tasks receive significant research focus,
particularly with the development of Large Language Model (LLM) such as Chat
GPT [1]. LLM can be applied to various domains, but it contradicts the
principles of information transmission when applied to the Islamic domain. In
Islam we strictly regulates the sources of information and who can give
interpretations or tafseer for that sources [2]. The approach used by LLM to
generate answers based on its own interpretation is similar to the concept of
tafseer, LLM is neither an Islamic expert nor a human which is not permitted in
Islam. Indonesia is the country with the largest Islamic believer population in
the world [3]. With the high influence of LLM, we need to make evaluation of
LLM in religious domain. Currently, there is only few religious QA dataset
available and none of them using Sirah Nabawiyah especially in Indonesian
Language. In this paper, we propose the Question Answering Sirah Nabawiyah
(QASiNa) dataset, a novel dataset compiled from Sirah Nabawiyah literatures in
Indonesian language. We demonstrate our dataset by using mBERT [4], XLM-R [5],
and IndoBERT [6] which fine-tuned with Indonesian translation of SQuAD v2.0
[7]. XLM-R model returned the best performance on QASiNa with EM of 61.20,
F1-Score of 75.94, and Substring Match of 70.00. We compare XLM-R performance
with Chat GPT-3.5 and GPT-4 [1]. Both Chat GPT version returned lower EM and
F1-Score with higher Substring Match, the gap of EM and Substring Match get
wider in GPT-4. The experiment indicate that Chat GPT tends to give excessive
interpretations as evidenced by its higher Substring Match scores compared to
EM and F1-Score, even after providing instruction and context. This concludes
Chat GPT is unsuitable for question answering task in religious domain
especially for Islamic religion.
- Abstract(参考訳): 現在、質問応答(QA)タスクは、特にChat GPT [1]のような大規模言語モデル(LLM)の開発において、重要な研究課題となっている。
LLMは様々な領域に適用できるが、イスラム領域に適用される際の情報伝達の原則とは矛盾する。
イスラム教では、情報ソースを厳格に規制し、そのソースに対して解釈や接尾辞を与えることができる([2])。
LLMが独自の解釈に基づいて回答を生成するアプローチは、タフザーの概念に似ているが、LLMはイスラームの専門家でも、イスラム教では認められない人間でもない。
インドネシアは世界最大のイスラム信者を持つ国である [3] である。
LLMの影響が大きいため、宗教領域におけるLSMの評価を行う必要がある。
現在、宗教的なQAデータセットはごくわずかであり、インドネシア語ではSirah Nabawiyahを使用していない。
本稿では,インドネシア語のSirah Nabawiyah文献から収集した新しいデータセットであるQASiNa(Qarguy Answering Sirah Nabawiyah)データセットを提案する。
我々は,インドネシア語訳SQuAD v2.0[7]を微調整したmBERT[4],XLM-R[5],IndoBERT[6]を用いて,我々のデータセットを実証した。
XLM-Rは、EMが61.20、F1スコアが75.94、Substring Matchが70.00でQASiNaで最高のパフォーマンスを回復した。
我々はXLM-Rの性能をChat GPT-3.5とGPT-4 [1]と比較した。
どちらも低いEMとF1-Score、より高いサブストリングマッチ、EMとサブストリングマッチのギャップはGPT-4で広くなった。
この実験は、チャットgptがemやf1-scoreに比べて、命令やコンテキストを提供しても高い部分文字列マッチングスコアで示されるような過度な解釈を与える傾向があることを示している。
この結果、チャット GPT は宗教領域、特にイスラム宗教において疑問に答えるタスクには適さないと結論付けている。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios [29.56889133557681]
本研究では、WhatsAppチャットから派生したデータセットに対する感情分析において、7つの主要言語モデル(LLM)の性能を評価する。
Mistral-7bとMixtral-8x7bは高いF1スコアを得たが、GPT-3.5-Turbo, Llama-2-70b, Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦労していた。
GPT-4とGPT-4-Turboは多様な言語入力を把握し、様々な文脈情報を管理するのに優れていた。
論文 参考訳(メタデータ) (2024-06-01T07:36:59Z) - Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - A RAG-based Question Answering System Proposal for Understanding Islam:
MufassirQAS LLM [0.34530027457862006]
本研究は,LLMの精度と透明性を高めるために,ベクトルデータベースに基づくRetrieval Augmented Generation (RAG)アプローチを用いる。
トルコの文脈を含むいくつかのオープンアクセスブックからなるデータベースを作成しました。
MufassirQAS と ChatGPT もセンシティブな質問でテストされている。
論文 参考訳(メタデータ) (2024-01-27T10:50:11Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Mispronunciation Detection of Basic Quranic Recitation Rules using Deep
Learning [0.0]
イスラム教では、読み手はタイウェド規則と呼ばれる一連の発音規則を適用して、クルランを引用しなければならない。
タジュウェドの教師の数は、現在、すべてのムスリムにとって毎日のリサイクリングの練習には不十分である。
本稿では,Mel-Frequency Cepstral Coefficient (MFCC) とLong Short-Term Memory (LSTM) ニューラルネットワークを組み合わせた時系列モデルを提案する。
論文 参考訳(メタデータ) (2023-05-10T19:31:25Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。