論文の概要: From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- arxiv url: http://arxiv.org/abs/2404.16130v2
- Date: Wed, 19 Feb 2025 10:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 20:12:09.620402
- Title: From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- Title(参考訳): ローカルからグローバルへ:クエリに焦点をあてた要約へのグラフRAGアプローチ
- Authors: Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness, Jonathan Larson,
- Abstract要約: GraphRAGは、プライベートテキストコーパスに対する質問応答のためのグラフベースのアプローチである。
我々は,GraphRAGが従来のRAGベースラインよりも大幅に改善され,生成した回答の包括性と多様性が向上することを示す。
- 参考スコア(独自算出の注目度): 4.075260785658849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of retrieval-augmented generation (RAG) to retrieve relevant information from an external knowledge source enables large language models (LLMs) to answer questions over private and/or previously unseen document collections. However, RAG fails on global questions directed at an entire text corpus, such as "What are the main themes in the dataset?", since this is inherently a query-focused summarization (QFS) task, rather than an explicit retrieval task. Prior QFS methods, meanwhile, do not scale to the quantities of text indexed by typical RAG systems. To combine the strengths of these contrasting methods, we propose GraphRAG, a graph-based approach to question answering over private text corpora that scales with both the generality of user questions and the quantity of source text. Our approach uses an LLM to build a graph index in two stages: first, to derive an entity knowledge graph from the source documents, then to pregenerate community summaries for all groups of closely related entities. Given a question, each community summary is used to generate a partial response, before all partial responses are again summarized in a final response to the user. For a class of global sensemaking questions over datasets in the 1 million token range, we show that GraphRAG leads to substantial improvements over a conventional RAG baseline for both the comprehensiveness and diversity of generated answers.
- Abstract(参考訳): 検索強化生成(RAG)を用いて、外部知識ソースから関連情報を検索することで、大規模言語モデル(LLM)が、プライベートおよび/または未確認の文書コレクションに関する質問に答えることができる。
しかしながら、RAGは、明示的な検索タスクではなく、クエリ中心の要約(QFS)タスクであるため、データセットの主なテーマは何か?
一方、従来のQFS法は、典型的なRAGシステムによってインデックスされたテキストの量にスケールしない。
このようなコントラスト手法の強みを生かして,ユーザ質問の汎用性とソーステキスト量の両面にスケールする,グラフベースの問合せ手法であるGraphRAGを提案する。
提案手法では,LLMを用いて2段階のグラフインデックスを構築する。まず,資料からエンティティ知識グラフを導出し,近縁なエンティティのすべてのグループに対して,コミュニティの要約を事前に生成する。
質問があると、各コミュニティの要約は部分的な応答を生成するために使用され、その後、すべての部分的な応答はユーザーへの最終応答で再度要約される。
100万のトークン範囲のデータセットに対するグローバルなセンスメイキング質問のクラスについて、GraphRAGは、生成された回答の包括性と多様性の両方に対して、従来のRAGベースラインよりも大幅に改善されていることを示す。
関連論文リスト
- FG-RAG: Enhancing Query-Focused Summarization with Context-Aware Fine-Grained Graph RAG [12.854423869114292]
Query-Focused Summarization (QFS)タスクでは、GraphRAGベースのアプローチにより、生成された応答の包括性と多様性が著しく向上した。
既存のGraphRAGベースのアプローチでは、特定のクエリを意識せずに、粗い情報要約に重点を置いている。
本稿では,QFSタスクの性能を高めるために,コンテキスト対応ファイングラインドグラフRAG(FG-RAG)を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:42:07Z) - Talking to GDELT Through Knowledge Graphs [0.6461717749486492]
本研究では,各アプローチの強みと弱みを質問応答解析で把握するために,様々なRAG(Retrieval Augmented Regeneration)アプローチについて検討する。
テキストコーパスから情報を取得するために,従来のベクトルストアRAGと,最先端の大規模言語モデル(LLM)に基づくアプローチを実装した。
論文 参考訳(メタデータ) (2025-03-10T17:48:10Z) - Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。
RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。
本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文 参考訳(メタデータ) (2025-01-06T01:07:59Z) - RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation [3.2027710059627545]
検索拡張生成のためのグラフィカル固有メモリ(GEM-RAG)について紹介する。
GEM-RAG は LLM が生成したユーティリティの質問を与えられたテキストコーパスにタグ付けすることで機能する。
我々は,UnifiedQA と GPT-3.5 Turbo を LLM として,SBERT を用いた GEM-RAG と OpenAI のテキストエンコーダを2つの標準QA タスクで評価した。
論文 参考訳(メタデータ) (2024-09-23T21:42:47Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Don't Forget to Connect! Improving RAG with Graph-based Reranking [26.433218248189867]
本稿では,グラフニューラルネットワーク(GNN)に基づくリランカであるG-RAGについて紹介する。
提案手法は,文書と意味情報の相互接続(抽象表現平均グラフ)を組み合わせ,RAGの文脈インフォームドローダを提供する。
G-RAGは計算フットプリントを小さくしながら最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2024-05-28T17:56:46Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - RAG-Fusion: a New Take on Retrieval-Augmented Generation [0.0]
Infineonは、エンジニア、アカウントマネージャ、顧客が迅速に製品情報を取得する必要性を特定している。
この研究は人工知能(AI)と自然言語処理(NLP)の応用において大きな進歩をみせている。
論文 参考訳(メタデータ) (2024-01-31T22:06:07Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - UNIQORN: Unified Question Answering over RDF Knowledge Graphs and Natural Language Text [20.1784368017206]
知識グラフのようなRDFデータに対する質問応答は大幅に進歩している。
IRとNLPのコミュニティはテキストによるQAに対処してきたが、そのようなシステムは意味データや知識をほとんど利用していない。
本稿では,RDFデータセットとテキストコーパスを併用した複雑な質問をシームレスに操作する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T10:50:52Z) - Conversational Question Answering over Knowledge Graphs with Transformer
and Graph Attention Networks [4.550927535779247]
本稿では,知識グラフ上での(複雑な)会話型質問応答のタスクについて述べる。
LASAGNE (muLti-task semAntic parSing with trAnsformer and Graph atteNtion nEtworks) を提案する。
LASAGNEは10問中8問でF1スコアを改善した。
論文 参考訳(メタデータ) (2021-04-04T09:21:50Z) - Semantic Graphs for Generating Deep Questions [98.5161888878238]
本稿では、まず、入力文書のセマンティックレベルグラフを構築し、次にアテンションベースのGGNN(Att-GGNN)を導入してセマンティックグラフを符号化する新しいフレームワークを提案する。
HotpotQAのDeep-question中心のデータセットでは、複数の事実の推論を必要とする問題よりもパフォーマンスが大幅に向上し、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-27T10:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。