論文の概要: MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop
Queries
- arxiv url: http://arxiv.org/abs/2401.15391v1
- Date: Sat, 27 Jan 2024 11:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:25:32.062278
- Title: MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop
Queries
- Title(参考訳): MultiHop-RAG:マルチホップクエリのベンチマーク検索拡張生成
- Authors: Yixuan Tang and Yi Yang
- Abstract要約: Retrieval-augmented Generation (RAG)は、関連する知識を検索することで、大きな言語モデル(LLM)を拡張する。
既存のRAGシステムはマルチホップクエリに応答するには不十分であり、複数の証拠を検索して推論する必要がある。
我々は,知識ベース,多数のマルチホップクエリのコレクション,基礎的回答,関連する支持証拠からなる新しいデータセットであるMultiHop-RAGを開発した。
- 参考スコア(独自算出の注目度): 22.4349439498591
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) augments large language models (LLM) by
retrieving relevant knowledge, showing promising potential in mitigating LLM
hallucinations and enhancing response quality, thereby facilitating the great
adoption of LLMs in practice. However, we find that existing RAG systems are
inadequate in answering multi-hop queries, which require retrieving and
reasoning over multiple pieces of supporting evidence. Furthermore, to our
knowledge, no existing RAG benchmarking dataset focuses on multi-hop queries.
In this paper, we develop a novel dataset, MultiHop-RAG, which consists of a
knowledge base, a large collection of multi-hop queries, their ground-truth
answers, and the associated supporting evidence. We detail the procedure of
building the dataset, utilizing an English news article dataset as the
underlying RAG knowledge base. We demonstrate the benchmarking utility of
MultiHop-RAG in two experiments. The first experiment compares different
embedding models for retrieving evidence for multi-hop queries. In the second
experiment, we examine the capabilities of various state-of-the-art LLMs,
including GPT-4, PaLM, and Llama2-70B, in reasoning and answering multi-hop
queries given the evidence. Both experiments reveal that existing RAG methods
perform unsatisfactorily in retrieving and answering multi-hop queries. We hope
MultiHop-RAG will be a valuable resource for the community in developing
effective RAG systems, thereby facilitating greater adoption of LLMs in
practice. The MultiHop-RAG and implemented RAG system is publicly available at
https://github.com/yixuantt/MultiHop-RAG/.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、LLMの幻覚を緩和し、応答品質を向上する有望な可能性を示し、LLMの実践的な採用を促進することで、大きな言語モデル(LLM)を増強する。
しかし、既存のRAGシステムはマルチホップクエリに答えるには不十分であり、複数の証拠を検索し、推論する必要がある。
さらに、我々の知る限り、既存のRAGベンチマークデータセットはマルチホップクエリにフォーカスしていません。
本稿では,知識ベース,マルチホップクエリの集合,基礎的回答,それに付随する支持証拠からなる新しいデータセットであるMultiHop-RAGを開発する。
本稿では,英語ニュース記事データセットを基礎となるrag知識ベースとして活用し,データセット構築の手順を詳述する。
我々は,MultiHop-RAGのベンチマークユーティリティを2つの実験で実証した。
最初の実験では、マルチホップクエリのエビデンスを取得するために異なる埋め込みモデルを比較した。
第2の実験では, GPT-4, PaLM, および Llama2-70B を含む様々な最先端の LLM の, 証明されたマルチホップクエリの推論および応答能力について検討した。
どちらの実験でも、既存のRAGメソッドはマルチホップクエリの検索と応答に不満足に機能することがわかった。
我々は,MultiHop-RAGが効果的なRAGシステムの開発において,コミュニティにとって貴重な資源になることを願っている。
MultiHop-RAGと実装されたRAGシステムはhttps://github.com/yixuantt/MultiHop-RAG/で公開されている。
関連論文リスト
- ERBench: An Entity-Relationship based Automatically Verifiable
Hallucination Benchmark for Large Language Models [48.38966595131693]
大規模言語モデル(LLM)は、様々なアプリケーションにおいて前例のない性能を達成したが、その評価は依然として重要な問題である。
既存のリレーショナルデータベースを利用することは、正確な知識記述のためにベンチマークを構築する上で有望なアプローチである、と我々は主張する。
本稿では,エンティティ・リレーショナル・モデル(ER)に基づいて,関係データベースを自動的にベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - Retrieval Augmented Generation Systems: Automatic Dataset Creation,
Evaluation and Boolean Agent Setup [5.464952345664292]
Retrieval Augmented Generation (RAG) システムは、Large-Language Model (LLM) 出力をドメイン固有データと時間機密データで拡張することで大きな人気を得ている。
本稿では,RAG戦略を定量的に比較するために,厳密なデータセット作成と評価のワークフローを提案する。
論文 参考訳(メタデータ) (2024-02-26T12:56:17Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Seven Failure Points When Engineering a Retrieval Augmented Generation
System [1.8776685617612472]
RAGシステムは,大規模言語モデルからの幻覚応答の問題を解決することを目的としている。
RAGシステムは情報検索システム固有の制限に悩まされている。
本稿では3つのケーススタディからRAGシステムの故障点について報告する。
論文 参考訳(メタデータ) (2024-01-11T12:04:11Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Multimodal Multi-Hop Question Answering Through a Conversation Between
Tools and Efficiently Finetuned Large Language Models [20.52053559484399]
我々は、複雑なマルチホップ質問に答えるために、ツールと相互作用する分割・クエリ戦略を採用する。
LLMの推論能力を高めるため,チャットGPTにツール間相互作用型分割・クエリーデータセットを生成する。
提案手法の有効性を評価するため,最近導入された2つの複雑な質問応答データセットについて評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:22:22Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。