論文の概要: A Knowledge-Centric Benchmarking Framework and Empirical Study for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2409.13694v1
- Date: Tue, 03 Sep 2024 03:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-30 06:31:55.117694
- Title: A Knowledge-Centric Benchmarking Framework and Empirical Study for Retrieval-Augmented Generation
- Title(参考訳): 知識中心型ベンチマークフレームワークと検索機能強化のための実証的研究
- Authors: Shuo Yu, Mingyue Cheng, Jiqian Yang, Jie Ouyang,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、検索機構を統合することで生成モデルを強化する。
その利点にもかかわらず、RAGは特に現実世界のクエリを効果的に処理する上で、大きな課題に直面している。
本稿では,これらの課題に対処する新しいRAGベンチマークを提案する。
- 参考スコア(独自算出の注目度): 4.359511178431438
- License:
- Abstract: Retrieval-Augmented Generation (RAG) enhances generative models by integrating retrieval mechanisms, which allow these models to access and utilize external knowledge sources. Despite its advantages, RAG encounters significant challenges, particularly in effectively handling real-world queries and mitigating hallucinations. The KDD Cup 2024 CRAG competition brings these issues to the forefront by incorporating both web pages and a mock API as knowledge sources, adding the complexity of parsing HTML before large language models (LLMs) can process the information. In this paper, we propose a novel RAG benchmark designed to address these challenges. Our work provides a comprehensive set of experimental results, offering valuable insights for the study of RAG. We thoroughly examine the entire RAG process, including knowledge source selection, retrieval, organization, and reasoning. Key findings from our study include the impact of automated knowledge source selection using agents and the influence of noise chunks on RAG reasoning. Additionally, we conduct detailed experiments to analyze the effects of various hyperparameters on RAG performance. To support further research, we have made our results, the associated code, and a parsed version of the CRAG dataset publicly available\footnote{https://github.com/USTCAGI/RAG-X}, contributing to the advancement of RAG methodologies and establishing a solid foundation for future work in this domain.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、検索機構を統合して生成モデルを強化し、これらのモデルが外部の知識ソースにアクセスし利用できるようにする。
その利点にもかかわらず、RAGは特に現実世界のクエリを効果的に処理し、幻覚を緩和する上で、重大な課題に直面している。
KDD Cup 2024 CRAGコンペティションは、WebページとモックAPIの両方を知識ソースとして組み込むことによって、これらの問題を最前線に持ち込み、大きな言語モデル(LLM)が情報を処理する前にHTMLを解析する複雑さを追加する。
本稿では,これらの課題に対処する新しいRAGベンチマークを提案する。
我々の研究は総合的な実験結果を提供し、RAGの研究に貴重な洞察を与えています。
我々は、知識ソースの選択、検索、組織化、推論を含むRAGプロセス全体を徹底的に検討する。
本研究の主な成果は,エージェントを用いた自動知識源選択の影響とRAG推論におけるノイズチャンクの影響である。
さらに,各種ハイパーパラメータがRAG性能に与える影響について詳細な実験を行った。
さらなる研究を支援するため、CRAGデータセットの成果、関連コード、解析されたバージョンを公開し、RAG方法論の進歩に寄与し、この領域における将来的な研究のための確かな基盤を確立しました。
関連論文リスト
- CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
我々は,Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである包括的RAGベンチマーク(CRAG)を紹介した。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Evaluation of Retrieval-Augmented Generation: A Survey [13.633909177683462]
本稿では,Retrieval-Augmented Generation (RAG)システムの評価とベンチマークについて概観する。
具体的には、検索・生成要素の定量化指標(関連性、正確性、忠実性など)について検討・比較する。
次に、様々なデータセットとメトリクスを分析し、現在のベンチマークの限界について議論し、RAGベンチマークの分野を前進させる潜在的な方向性を提案する。
論文 参考訳(メタデータ) (2024-05-13T02:33:25Z) - DuetRAG: Collaborative Retrieval-Augmented Generation [57.440772556318926]
協調検索拡張生成フレームワークであるDuetRAGが提案されている。
ブートストラップの哲学はドメインフィニングとRAGモデルを同時に統合することである。
論文 参考訳(メタデータ) (2024-05-12T09:48:28Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - A Survey on Retrieval-Augmented Text Generation for Large Language Models [1.4579344926652844]
Retrieval-Augmented Generation (RAG)は、検索手法とディープラーニングの進歩を融合する。
本稿では,RAGパラダイムを検索前,検索後,検索後,生成の4つのカテゴリに分類する。
RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。
論文 参考訳(メタデータ) (2024-04-17T01:27:42Z) - Retrieval-Augmented Generation for AI-Generated Content: A Survey [38.50754568320154]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することで生成プロセスを強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。