論文の概要: From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- arxiv url: http://arxiv.org/abs/2404.16130v1
- Date: Wed, 24 Apr 2024 18:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:02:25.924963
- Title: From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- Title(参考訳): ローカルからグローバルへ:クエリに焦点をあてた要約へのグラフRAGアプローチ
- Authors: Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Jonathan Larson,
- Abstract要約: プライベートテキストコーパス上での質問応答に対するグラフRAG手法を提案する。
我々のアプローチは、ソース文書からエンティティ知識グラフを使用して、近縁なエンティティのすべてのグループに対して、コミュニティの要約を事前に生成する。
100万のトークン範囲のデータセットに対するグローバルなセンスメイキング質問のクラスでは、グラフRAGが、生来のRAGベースラインよりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 3.9676927113698626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of retrieval-augmented generation (RAG) to retrieve relevant information from an external knowledge source enables large language models (LLMs) to answer questions over private and/or previously unseen document collections. However, RAG fails on global questions directed at an entire text corpus, such as "What are the main themes in the dataset?", since this is inherently a query-focused summarization (QFS) task, rather than an explicit retrieval task. Prior QFS methods, meanwhile, fail to scale to the quantities of text indexed by typical RAG systems. To combine the strengths of these contrasting methods, we propose a Graph RAG approach to question answering over private text corpora that scales with both the generality of user questions and the quantity of source text to be indexed. Our approach uses an LLM to build a graph-based text index in two stages: first to derive an entity knowledge graph from the source documents, then to pregenerate community summaries for all groups of closely-related entities. Given a question, each community summary is used to generate a partial response, before all partial responses are again summarized in a final response to the user. For a class of global sensemaking questions over datasets in the 1 million token range, we show that Graph RAG leads to substantial improvements over a na\"ive RAG baseline for both the comprehensiveness and diversity of generated answers. An open-source, Python-based implementation of both global and local Graph RAG approaches is forthcoming at https://aka.ms/graphrag.
- Abstract(参考訳): 検索強化生成(RAG)を用いて、外部知識ソースから関連情報を検索することで、大規模言語モデル(LLM)が、プライベートおよび/または未確認の文書コレクションに関する質問に答えることができる。
しかしながら、RAGは、明示的な検索タスクではなく、クエリ中心の要約(QFS)タスクであるため、データセットの主なテーマは何か?
一方、以前のQFS法は、典型的なRAGシステムによってインデックスされたテキストの量にスケールできない。
これらのコントラスト手法の強みを生かしたグラフRAG手法を提案し,ユーザ質問の一般性とインデックスするソーステキスト量の両方をスケールするプライベートテキストコーパスに対する質問応答を提案する。
提案手法は LLM を用いてグラフベースのテキストインデックスを2段階に構築する。まず,資料からエンティティ知識グラフを導出し,近縁なエンティティのすべてのグループに対するコミュニティ要約を事前に生成する。
質問があると、各コミュニティの要約は部分的な応答を生成するために使用され、その後、すべての部分的な応答はユーザーへの最終応答で再度要約される。
100万のトークン範囲のデータセットに対するグローバルなセンスメイキング質問のクラスについて、グラフRAGは、生成された回答の包括性と多様性の両方に対して、na\\ive RAGベースラインよりも大幅に改善されていることを示す。
グローバルとローカルのGraph RAGアプローチのオープンソースでPythonベースの実装がhttps://aka.ms/graphrag.comで公開される予定だ。
関連論文リスト
- Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。
RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。
本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文 参考訳(メタデータ) (2025-01-06T01:07:59Z) - GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation [3.2027710059627545]
検索拡張生成のためのグラフィカル固有メモリ(GEM-RAG)について紹介する。
GEM-RAG は LLM が生成したユーティリティの質問を与えられたテキストコーパスにタグ付けすることで機能する。
我々は,UnifiedQA と GPT-3.5 Turbo を LLM として,SBERT を用いた GEM-RAG と OpenAI のテキストエンコーダを2つの標準QA タスクで評価した。
論文 参考訳(メタデータ) (2024-09-23T21:42:47Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question
Answering over a Life Science Knowledge Graph [0.0]
生命科学知識グラフを用いた質問応答のためのOpenLlama LLMの微調整戦略を評価する。
本稿では,既存のクエリのセットを知識グラフ上に拡張するためのエンドツーエンドデータ拡張手法を提案する。
また、意味のある変数名やインラインコメントなど、クエリにおける意味的な"キュー"の役割についても検討する。
論文 参考訳(メタデータ) (2024-02-07T07:24:01Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Graph-augmented Learning to Rank for Querying Large-scale Knowledge
Graph [34.774049199809426]
情報検索に基づく知識グラフ質問応答(KGQA)は,大規模知識グラフから回答を取得して回答することを目的としている。
まず,検索したKSGを,新しいサブグラフ分割アルゴリズムを用いて,より小さなKSGに分割する。
次に、ランク付けモデルから上位のKSGを選択するためのグラフ拡張学習を提案する。
論文 参考訳(メタデータ) (2021-11-20T08:27:37Z) - Semantic Graphs for Generating Deep Questions [98.5161888878238]
本稿では、まず、入力文書のセマンティックレベルグラフを構築し、次にアテンションベースのGGNN(Att-GGNN)を導入してセマンティックグラフを符号化する新しいフレームワークを提案する。
HotpotQAのDeep-question中心のデータセットでは、複数の事実の推論を必要とする問題よりもパフォーマンスが大幅に向上し、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-27T10:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。