Fugu-MT 論文翻訳(概要): Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval

論文の概要: Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval

arxiv url: http://arxiv.org/abs/2506.08074v1
Date: Mon, 09 Jun 2025 17:58:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.272545
Title: Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval
Title（参考訳）: 階層型語彙グラフによるマルチホップ検索の高速化
Authors: Abdellah Ghassel, Ian Robinson, Gabriel Tanase, Hal Cooper, Bryan Thompson, Zhen Han, Vassilis N. Ioannidis, Soji Adeshina, Huzefa Rangwala,
Abstract要約: RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
参考スコア（独自算出の注目度）: 22.33550491040999
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) grounds large language models in external evidence, yet it still falters when answers must be pieced together across semantically distant documents. We close this gap with the Hierarchical Lexical Graph (HLG), a three-tier index that (i) traces every atomic proposition to its source, (ii) clusters propositions into latent topics, and (iii) links entities and relations to expose cross-document paths. On top of HLG we build two complementary, plug-and-play retrievers: StatementGraphRAG, which performs fine-grained entity-aware beam search over propositions for high-precision factoid questions, and TopicGraphRAG, which selects coarse topics before expanding along entity links to supply broad yet relevant context for exploratory queries. Additionally, existing benchmarks lack the complexity required to rigorously evaluate multi-hop summarization systems, often focusing on single-document queries or limited datasets. To address this, we introduce a synthetic dataset generation pipeline that curates realistic, multi-document question-answer pairs, enabling robust evaluation of multi-hop retrieval systems. Extensive experiments across five datasets demonstrate that our methods outperform naive chunk-based RAG achieving an average relative improvement of 23.1% in retrieval recall and correctness. Open-source Python library is available at https://github.com/awslabs/graphrag-toolkit.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、大きな言語モデルを外部の証拠として用いているが、セマンティックな遠方の文書で答えをまとめなければならないといまだに混乱している。このギャップを階層辞書グラフ(HLG)という3層インデックスで埋める。 (i)すべての原子命題をその源にトレースする (ii)クラスタ命題から潜在トピックへの命題、 (iii)エンティティと関係をリンクして、クロスドキュメントパスを公開する。 HLGの上に2つの補完的なプラグアンドプレイレトリバーを構築します: StatementGraphRAGは、高精度なファクトイド質問の命題を細粒度でエンティティ対応のビームサーチを実行し、TopicGraphRAGは、エンティティリンクに沿って拡張して、探索クエリに広く、関連のあるコンテキストを提供する。さらに、既存のベンチマークでは、単一ドキュメントクエリや限られたデータセットに重点を置いて、マルチホップの要約システムを厳格に評価するために必要な複雑さが欠如している。そこで本研究では,マルチホップ検索システムの堅牢な評価を実現するために,現実的な複数文書の問合せ対をキュレートする合成データセット生成パイプラインを提案する。 5つのデータセットにまたがる大規模な実験により,本手法は平均23.1%の検索リコールと正当性向上を達成し,有意なチャンクベースRAGよりも優れていることが示された。オープンソースのPythonライブラリはhttps://github.com/awslabs/graphrag-toolkit.comで入手できる。

関連論文リスト

WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora [34.720109050809285]
グラフベースのRetrieval-Augmented Generation (GraphRAG)は、階層グラフとして外部知識を整理する。 GraphRAGの既存のベンチマークの多くは、外部知識として短い、キュレートされたパスに依存している。 WildGraphBenchは、GraphRAGのパフォーマンスを野生で評価するために設計されたベンチマークである。
論文参考訳（メタデータ） (2026-02-02T12:55:29Z)
RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning [69.87510139069218]
Retrieval-Augmented Generation (RAG)は、非パラメトリック知識をLarge Language Models (LLM)に統合する強化学習(RL)による多ターン推論へのテキストベースRAGの進歩 LLMがマルチターンおよび適応的なグラフテキストハイブリッドRAGを実現するためのRLベースのフレームワークであるモデルを導入する。
論文参考訳（メタデータ） (2025-12-10T10:05:31Z)
BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。 BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-12-03T03:40:49Z)
Attention Grounded Enhancement for Visual Document Retrieval [12.602988404893305]
視覚文書検索のためのtextbfAttention-textbfGrounded textbfREtriever textbfEnhancement (AGREE) フレームワークを提案する。 AGREEは、大規模言語モデルからの横断的な注意をプロキシローカル監視として組み合わせ、関連する文書領域の識別をガイドする。挑戦的なViDoRe V2ベンチマークの実験では、AGREEはグローバルなスーパービジョンのみのベースラインをはるかに上回っている。
論文参考訳（メタデータ） (2025-11-17T14:28:41Z)
MIXRAG : Mixture-of-Experts Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [6.596018318578605]
Retrieval-Augmented Generation (RAG)は、推論中に外部知識ソースを組み込むことで、Large Language Models (LLM)を強化する。既存のアプローチのほとんどは、関連するサブグラフを特定するために単一のレトリバーに依存しており、複雑なクエリのさまざまな側面をキャプチャする能力を制限する。そこで我々は,Mixture-of-Experts Graph-RAGフレームワークであるMIXRAGを提案する。
論文参考訳（メタデータ） (2025-09-24T02:44:57Z)
Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。 SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文参考訳（メタデータ） (2025-07-14T08:41:53Z)
A Query-Aware Multi-Path Knowledge Graph Fusion Approach for Enhancing Retrieval-Augmented Generation in Large Language Models [3.0748861313823]
QMKGFはクエリ対応マルチパス知識グラフフュージョンアプローチであり、検索拡張生成を促進する。我々はプロンプトテンプレートを設計し、汎用LLMを用いてエンティティや関係を抽出する。本稿では, ワンホップ関係, マルチホップ関係, 重要度に基づく関係を組み込んだマルチパスサブグラフ構築戦略を提案する。
論文参考訳（メタデータ） (2025-07-07T02:22:54Z)
Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [18.96570718233786]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文参考訳（メタデータ） (2025-05-20T06:44:34Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering [12.60063463163226]
IIERは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
論文参考訳（メタデータ） (2024-08-06T02:39:55Z)
Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文参考訳（メタデータ） (2024-03-22T17:13:46Z)
Consistency Guided Knowledge Retrieval and Denoising in LLMs for Zero-shot Document-level Relation Triplet Extraction [43.50683283748675]
文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。既存の手法は、かなりの量の完全なラベル付きデータに依存している。 ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
論文参考訳（メタデータ） (2024-01-24T17:04:28Z)
Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。 query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文参考訳（メタデータ） (2023-03-14T07:27:30Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文参考訳（メタデータ） (2022-05-23T11:01:59Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。