論文の概要: From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- arxiv url: http://arxiv.org/abs/2404.16130v1
- Date: Wed, 24 Apr 2024 18:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:02:25.924963
- Title: From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- Title(参考訳): ローカルからグローバルへ:クエリに焦点をあてた要約へのグラフRAGアプローチ
- Authors: Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Jonathan Larson,
- Abstract要約: プライベートテキストコーパス上での質問応答に対するグラフRAG手法を提案する。
我々のアプローチは、ソース文書からエンティティ知識グラフを使用して、近縁なエンティティのすべてのグループに対して、コミュニティの要約を事前に生成する。
100万のトークン範囲のデータセットに対するグローバルなセンスメイキング質問のクラスでは、グラフRAGが、生来のRAGベースラインよりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 3.9676927113698626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of retrieval-augmented generation (RAG) to retrieve relevant information from an external knowledge source enables large language models (LLMs) to answer questions over private and/or previously unseen document collections. However, RAG fails on global questions directed at an entire text corpus, such as "What are the main themes in the dataset?", since this is inherently a query-focused summarization (QFS) task, rather than an explicit retrieval task. Prior QFS methods, meanwhile, fail to scale to the quantities of text indexed by typical RAG systems. To combine the strengths of these contrasting methods, we propose a Graph RAG approach to question answering over private text corpora that scales with both the generality of user questions and the quantity of source text to be indexed. Our approach uses an LLM to build a graph-based text index in two stages: first to derive an entity knowledge graph from the source documents, then to pregenerate community summaries for all groups of closely-related entities. Given a question, each community summary is used to generate a partial response, before all partial responses are again summarized in a final response to the user. For a class of global sensemaking questions over datasets in the 1 million token range, we show that Graph RAG leads to substantial improvements over a na\"ive RAG baseline for both the comprehensiveness and diversity of generated answers. An open-source, Python-based implementation of both global and local Graph RAG approaches is forthcoming at https://aka.ms/graphrag.
- Abstract(参考訳): 検索強化生成(RAG)を用いて、外部知識ソースから関連情報を検索することで、大規模言語モデル(LLM)が、プライベートおよび/または未確認の文書コレクションに関する質問に答えることができる。
しかしながら、RAGは、明示的な検索タスクではなく、クエリ中心の要約(QFS)タスクであるため、データセットの主なテーマは何か?
一方、以前のQFS法は、典型的なRAGシステムによってインデックスされたテキストの量にスケールできない。
これらのコントラスト手法の強みを生かしたグラフRAG手法を提案し,ユーザ質問の一般性とインデックスするソーステキスト量の両方をスケールするプライベートテキストコーパスに対する質問応答を提案する。
提案手法は LLM を用いてグラフベースのテキストインデックスを2段階に構築する。まず,資料からエンティティ知識グラフを導出し,近縁なエンティティのすべてのグループに対するコミュニティ要約を事前に生成する。
質問があると、各コミュニティの要約は部分的な応答を生成するために使用され、その後、すべての部分的な応答はユーザーへの最終応答で再度要約される。
100万のトークン範囲のデータセットに対するグローバルなセンスメイキング質問のクラスについて、グラフRAGは、生成された回答の包括性と多様性の両方に対して、na\\ive RAGベースラインよりも大幅に改善されていることを示す。
グローバルとローカルのGraph RAGアプローチのオープンソースでPythonベースの実装がhttps://aka.ms/graphrag.comで公開される予定だ。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Don't Forget to Connect! Improving RAG with Graph-based Reranking [26.433218248189867]
本稿では,グラフニューラルネットワーク(GNN)に基づくリランカであるG-RAGについて紹介する。
提案手法は,文書と意味情報の相互接続(抽象表現平均グラフ)を組み合わせ,RAGの文脈インフォームドローダを提供する。
G-RAGは計算フットプリントを小さくしながら最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2024-05-28T17:56:46Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - RAG-Fusion: a New Take on Retrieval-Augmented Generation [0.0]
Infineonは、エンジニア、アカウントマネージャ、顧客が迅速に製品情報を取得する必要性を特定している。
この研究は人工知能(AI)と自然言語処理(NLP)の応用において大きな進歩をみせている。
論文 参考訳(メタデータ) (2024-01-31T22:06:07Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - UNIQORN: Unified Question Answering over RDF Knowledge Graphs and Natural Language Text [20.1784368017206]
知識グラフのようなRDFデータに対する質問応答は大幅に進歩している。
IRとNLPのコミュニティはテキストによるQAに対処してきたが、そのようなシステムは意味データや知識をほとんど利用していない。
本稿では,RDFデータセットとテキストコーパスを併用した複雑な質問をシームレスに操作する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T10:50:52Z) - Conversational Question Answering over Knowledge Graphs with Transformer
and Graph Attention Networks [4.550927535779247]
本稿では,知識グラフ上での(複雑な)会話型質問応答のタスクについて述べる。
LASAGNE (muLti-task semAntic parSing with trAnsformer and Graph atteNtion nEtworks) を提案する。
LASAGNEは10問中8問でF1スコアを改善した。
論文 参考訳(メタデータ) (2021-04-04T09:21:50Z) - Semantic Graphs for Generating Deep Questions [98.5161888878238]
本稿では、まず、入力文書のセマンティックレベルグラフを構築し、次にアテンションベースのGGNN(Att-GGNN)を導入してセマンティックグラフを符号化する新しいフレームワークを提案する。
HotpotQAのDeep-question中心のデータセットでは、複数の事実の推論を必要とする問題よりもパフォーマンスが大幅に向上し、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-27T10:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。