論文の概要: DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2406.05654v1
- Date: Sun, 9 Jun 2024 05:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:46:42.914435
- Title: DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation
- Title(参考訳): DomainRAG: ドメイン固有検索拡張世代評価のための中国語ベンチマーク
- Authors: Shuting Wang, Jiongnan Liu Shiren Song, Jiehan Cheng, Yuqi Fu, Peidong Guo, Kun Fang, Yutao Zhu, Zhicheng Dou,
- Abstract要約: Retrieval-Augmented Generationは、大規模言語モデルの様々な制限に対処する有望なソリューションを提供する。
現在の研究は、しばしばウィキペディアのような一般的な知識ソースを使って、常識的な問題を解決するモデルの能力を評価している。
対話型RAGの能力を含むRAGモデルに必要な6つの能力を特定した。
- 参考スコア(独自算出の注目度): 19.668393735216686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) offers a promising solution to address various limitations of Large Language Models (LLMs), such as hallucination and difficulties in keeping up with real-time updates. This approach is particularly critical in expert and domain-specific applications where LLMs struggle to cover expert knowledge. Therefore, evaluating RAG models in such scenarios is crucial, yet current studies often rely on general knowledge sources like Wikipedia to assess the models' abilities in solving common-sense problems. In this paper, we evaluated LLMs by RAG settings in a domain-specific context, college enrollment. We identified six required abilities for RAG models, including the ability in conversational RAG, analyzing structural information, faithfulness to external knowledge, denoising, solving time-sensitive problems, and understanding multi-document interactions. Each ability has an associated dataset with shared corpora to evaluate the RAG models' performance. We evaluated popular LLMs such as Llama, Baichuan, ChatGLM, and GPT models. Experimental results indicate that existing closed-book LLMs struggle with domain-specific questions, highlighting the need for RAG models to solve expert problems. Moreover, there is room for RAG models to improve their abilities in comprehending conversational history, analyzing structural information, denoising, processing multi-document interactions, and faithfulness in expert knowledge. We expect future studies could solve these problems better.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は,幻覚やリアルタイム更新の維持の難しさといった,Large Language Models (LLM) のさまざまな制限に対処する,有望なソリューションを提供する。
LLMが専門家の知識をカバーするのに苦労する専門家やドメイン固有のアプリケーションでは、このアプローチは特に重要である。
したがって、このようなシナリオにおけるRAGモデルの評価は極めて重要であるが、最近の研究は、共通センスの問題を解決する際のモデルの能力を評価するために、ウィキペディアのような一般的な知識ソースに依存していることが多い。
本稿では,ドメイン固有の文脈,大学入学におけるRAG設定によるLCMの評価を行った。
RAGモデルに必要な機能として,会話RAGの能力,構造情報の分析,外部知識への忠実さ,妄想,時間依存問題の解決,多文書間相互作用の理解など6つを同定した。
各機能は、RAGモデルのパフォーマンスを評価するために、共有コーパスに関連付けられたデータセットを持つ。
Llama,Baichuan,ChatGLM,GPTモデルなどのLLMの評価を行った。
実験の結果,既存の閉書 LLM はドメイン固有の問題に悩まされており,専門家の問題を解決するためのRAG モデルの必要性を強調している。
さらに、RAGモデルは、会話履歴の理解、構造情報の分析、装飾、多文書間相互作用の処理、専門家の知識への忠実さなどの能力を向上させる余地がある。
今後の研究がこれらの問題をよりよく解決することを期待している。
関連論文リスト
- Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。
LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。
SMART-SLICはドメイン固有のLLMフレームワークである。
論文 参考訳(メタデータ) (2024-10-03T17:40:55Z) - Retrieval-Augmented Generation for Natural Language Processing: A Survey [25.11304732038443]
検索強化生成(RAG)は、外部知識データベースを利用して大きな言語モデルを拡張する。
本稿では,RAGの重要技術,特に検索器と検索融合について概説する。
RAGは、自然言語処理のタスクや産業シナリオで使われる。
論文 参考訳(メタデータ) (2024-07-18T06:06:53Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。
既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。
人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文 参考訳(メタデータ) (2024-02-21T06:04:53Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。