論文の概要: Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models
- arxiv url: http://arxiv.org/abs/2503.16581v1
- Date: Thu, 20 Mar 2025 13:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:55.994389
- Title: Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models
- Title(参考訳): クレーン研究における検索強化生成の検討:13個のオープンソース大規模言語モデルの検討
- Authors: Zahra Khalila, Arbi Haza Nasution, Winda Monika, Aytug Onan, Yohei Murakami, Yasir Bin Ismail Radi, Noor Mohammad Osmani,
- Abstract要約: 汎用大規模言語モデル(LLM)は、しばしば幻覚に苦しむ。
この課題は、応答の正確さ、妥当性、忠実さを維持しながらドメイン固有の知識を統合するシステムの必要性を強調している。
本研究は,114サラーの意味,歴史的文脈,質など,クラーニック・サラーの記述的データセットを利用する。
モデルは、文脈関連性、回答忠実性、回答関連性という、人間の評価者によって設定された3つの重要な指標を用いて評価される。
- 参考スコア(独自算出の注目度): 0.18846515534317265
- License:
- Abstract: Accurate and contextually faithful responses are critical when applying large language models (LLMs) to sensitive and domain-specific tasks, such as answering queries related to quranic studies. General-purpose LLMs often struggle with hallucinations, where generated responses deviate from authoritative sources, raising concerns about their reliability in religious contexts. This challenge highlights the need for systems that can integrate domain-specific knowledge while maintaining response accuracy, relevance, and faithfulness. In this study, we investigate 13 open-source LLMs categorized into large (e.g., Llama3:70b, Gemma2:27b, QwQ:32b), medium (e.g., Gemma2:9b, Llama3:8b), and small (e.g., Llama3.2:3b, Phi3:3.8b). A Retrieval-Augmented Generation (RAG) is used to make up for the problems that come with using separate models. This research utilizes a descriptive dataset of Quranic surahs including the meanings, historical context, and qualities of the 114 surahs, allowing the model to gather relevant knowledge before responding. The models are evaluated using three key metrics set by human evaluators: context relevance, answer faithfulness, and answer relevance. The findings reveal that large models consistently outperform smaller models in capturing query semantics and producing accurate, contextually grounded responses. The Llama3.2:3b model, even though it is considered small, does very well on faithfulness (4.619) and relevance (4.857), showing the promise of smaller architectures that have been well optimized. This article examines the trade-offs between model size, computational efficiency, and response quality while using LLMs in domain-specific applications.
- Abstract(参考訳): 大規模言語モデル(LLM)をセンシティブでドメイン固有のタスクに適用する際には、正確な応答と文脈に忠実な応答が重要である。
汎用LSMは、しばしば幻覚に苦しむが、そこで生成された応答は権威的な情報源から逸脱し、宗教的文脈における彼らの信頼性に関する懸念を提起する。
この課題は、応答の正確さ、妥当性、忠実さを維持しながらドメイン固有の知識を統合するシステムの必要性を強調している。
本研究では, Llama3:70b, Gemma2:27b, QwQ:32b), medium (e g , Gemma2:9b, Llama3:8b), small (e g , Llama3.2:3b, Phi3:3.8b)に分類される13個のオープンソースLCMについて検討した。
Retrieval-Augmented Generation (RAG) は、異なるモデルを用いて生じる問題を補うために用いられる。
本研究は,114サラーの意味,歴史的文脈,質などを含むクラーニック・サラーの記述的データセットを用いて,モデルが応答する前に関連する知識を収集することを可能にする。
モデルは、文脈関連性、回答忠実性、回答関連性という、人間の評価者によって設定された3つの重要な指標を用いて評価される。
この結果から,大規模モデルはクエリのセマンティクスを捕捉し,文脈的に正確な応答を生成する上で,より小さなモデルよりも一貫して優れていることがわかった。
Llama3.2:3bモデルは、小さくても、忠実さ(4.619)と妥当性(4.857)に非常によく依存しており、最適化されたより小さなアーキテクチャが約束されている。
本稿では、モデルサイズ、計算効率、応答品質のトレードオフについて、ドメイン固有のアプリケーションでLLMを使用して検討する。
関連論文リスト
- Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Sufficient Context: A New Lens on Retrieval Augmented Generation Systems [19.238772793096473]
LLMをコンテキストで拡張すると、多くのアプリケーションのパフォーマンスが向上する。
我々は、クエリに答える十分な情報を持つインスタンスを分類すると共に、十分なコンテキストという新しい概念を開発する。
LLMはコンテキストが十分である場合,クエリの応答に優れるが,コンテキストが不適切でない場合,しばしば不適切な回答を出力する。
論文 参考訳(メタデータ) (2024-11-09T02:13:14Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation [8.975024781390077]
MIRAGE --Model Internals-based RAG Explanations -- このモデル内部を用いたプラグアンドプレイアプローチは、質問応答アプリケーションにおける忠実な回答属性である。
提案手法を多言語QAデータセット上で評価し,人間の回答属性と高い一致性を見いだした。
論文 参考訳(メタデータ) (2024-06-19T16:10:26Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Minimizing Factual Inconsistency and Hallucination in Large Language
Models [0.16417409087671928]
大規模言語モデル(LLM)は医療、教育、金融といった重要な分野で広く使われている。
本稿では,まず理性を生成する多段階フレームワークを提案する。
当社のフレームワークは,OpenAI GPT-3.5-turboの信頼性を14~25%向上し,2つのデータセットに対して16~22%向上させることで,従来の検索拡張生成(RAG)を改善する。
論文 参考訳(メタデータ) (2023-11-23T09:58:39Z) - Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models [54.55088169443828]
CoN(Chain-of-Noting)は、ノイズや無関係な文書、未知のシナリオの処理において、ALMの堅牢性を改善することを目的とした、新しいアプローチである。
CoNは、完全にノイズの多い検索された文書が与えられるEMスコアの+7.9と、トレーニング済みの知識範囲外にあるリアルタイム質問に対する拒絶率+10.5の平均的な改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T18:54:53Z) - On The Truthfulness of 'Surprisingly Likely' Responses of Large Language Models [5.252280724532548]
多くの場合、大きな言語モデルの驚くほどのレスポンスは、標準ベースラインよりも正確であることを示す。
例えば、TruthfulQAで最大24ポイントの総合的な改善を観察する。
また、驚くほどの確率が低いか、より正確でない場合を含む、さらなる分析結果も提供します。
論文 参考訳(メタデータ) (2023-11-13T19:21:25Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering [40.86455734818704]
オープンドメインのマルチホップ質問応答のためのほとんどショットラーニングは、大言語モデルの非コンテキストラーニング能力に依存している。
そこで本研究では,10組未満のアノテート質問応答対を必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。