論文の概要: HetaRAG: Hybrid Deep Retrieval-Augmented Generation across Heterogeneous Data Stores
- arxiv url: http://arxiv.org/abs/2509.21336v1
- Date: Fri, 12 Sep 2025 06:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.746727
- Title: HetaRAG: Hybrid Deep Retrieval-Augmented Generation across Heterogeneous Data Stores
- Title(参考訳): HetaRAG: 異種データストアをまたいだハイブリッドディープ検索拡張ジェネレーション
- Authors: Guohang Yan, Yue Zhang, Pinlong Cai, Ding Wang, Song Mao, Hongwei Zhang, Yaoze Zhang, Hairong Zhang, Xinyu Cai, Botian Shi,
- Abstract要約: HetaRAGは、異種データストアからのクロスモーダルエビデンスをオーケストレーションする、ハイブリッドで深層検索可能な拡張生成フレームワークである。
HetaRAGはベクトルインデックス、知識グラフ、フルテキストエンジン、構造化データベースを単一の検索プレーンに統合する。
- 参考スコア(独自算出の注目度): 33.795387138571286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) has become a dominant paradigm for mitigating knowledge hallucination and staleness in large language models (LLMs) while preserving data security. By retrieving relevant evidence from private, domain-specific corpora and injecting it into carefully engineered prompts, RAG delivers trustworthy responses without the prohibitive cost of fine-tuning. Traditional retrieval-augmented generation (RAG) systems are text-only and often rely on a single storage backend, most commonly a vector database. In practice, this monolithic design suffers from unavoidable trade-offs: vector search captures semantic similarity yet loses global context; knowledge graphs excel at relational precision but struggle with recall; full-text indexes are fast and exact yet semantically blind; and relational engines such as MySQL provide strong transactional guarantees but no semantic understanding. We argue that these heterogeneous retrieval paradigms are complementary, and propose a principled fusion scheme to orchestrate them synergistically, mitigating the weaknesses of any single modality. In this work we introduce HetaRAG, a hybrid, deep-retrieval augmented generation framework that orchestrates cross-modal evidence from heterogeneous data stores. We plan to design a system that unifies vector indices, knowledge graphs, full-text engines, and structured databases into a single retrieval plane, dynamically routing and fusing evidence to maximize recall, precision, and contextual fidelity. To achieve this design goal, we carried out preliminary explorations and constructed an initial RAG pipeline; this technical report provides a brief overview. The partial code is available at https://github.com/KnowledgeXLab/HetaRAG.
- Abstract(参考訳): Retrieval-augmented Generation(RAG)は、データセキュリティを維持しながら、大規模言語モデル(LLM)における知識幻覚と安定化を緩和する主要なパラダイムとなっている。
プライベートなドメイン固有のコーパスから関連する証拠を取得し、慎重に設計されたプロンプトに注入することで、RAGは微調整の禁止コストなしで信頼できる応答を提供する。
従来の検索拡張生成システム(RAG)はテキストのみであり、たいていはベクトルデータベースである単一のストレージバックエンドに依存している。
実際、このモノリシックな設計は避けられないトレードオフに悩まされている: ベクトル検索はセマンティックな類似性をキャプチャするが、グローバルなコンテキストを失う; 知識グラフはリレーショナルな精度で優れているがリコールに苦労する; フルテキストインデックスは高速で正確だがセマンティックに見えない; MySQLのようなリレーショナルエンジンは強力なトランザクション保証を提供するがセマンティックな理解はない。
これらの不均一な検索パラダイムは相補的であり、単一のモダリティの弱点を緩和し、それらを相乗的に編成する原理的な融合スキームを提案する。
本研究では,異種データストアからのクロスモーダルエビデンスをオーケストレーションするハイブリッド・ディープ検索型拡張生成フレームワークであるHetaRAGを紹介する。
本研究では,ベクトル指標,知識グラフ,フルテキストエンジン,構造化データベースを単一の検索平面に統一するシステムの設計を計画する。
この設計目標を達成するため,予備探査を行い,最初のRAGパイプラインを構築した。
部分コードはhttps://github.com/KnowledgeXLab/HetaRAGで入手できる。
関連論文リスト
- Towards Open-World Retrieval-Augmented Generation on Knowledge Graph: A Multi-Agent Collaboration Framework [21.896955284099334]
大きな言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
Retrieval-Augmented Generation (RAG)は、外部知識ソースを組み込むことによって、この制限に対処する。
AnchorRAGは,オープンワールドRAGのための,事前定義されたアンカーエンティティを持たない新しいマルチエージェント協調フレームワークである。
論文 参考訳(メタデータ) (2025-09-01T08:26:12Z) - BifrostRAG: Bridging Dual Knowledge Graphs for Multi-Hop Question Answering in Construction Safety [11.079426930790458]
多くのコンプライアンス関連のクエリはマルチホップであり、リンクされた節間で情報を合成する必要がある。
これは、従来の検索拡張世代(RAG)システムにとっての課題である。
本稿では、言語関係と文書構造の両方を明示的にモデル化した二重グラフRAG統合システムであるBifrostRAGを紹介する。
論文 参考訳(メタデータ) (2025-07-18T03:39:14Z) - Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graphs for Retrieval-Augmented Generation [69.45495166424642]
我々は,物語文書における時間的,因果的,文字的整合性を理解するために,頑健で差別的なQAベンチマークを開発する。
次に、バイナリマッピングでリンクされたエンティティとイベントのサブグラフを分離したまま保持するデュアルグラフフレームワークであるEntity-Event RAG(E2RAG)を紹介します。
ChronoQA全体で、我々のアプローチは最先端の非構造化およびKGベースのRAGベースラインよりも優れており、因果一貫性クエリや文字整合性クエリが顕著である。
論文 参考訳(メタデータ) (2025-06-06T10:07:21Z) - MetaGen Blended RAG: Unlocking Zero-Shot Precision for Specialized Domain Question-Answering [0.0]
本稿では, セマンティック検索機能を強化した新しいエンタープライズ検索手法である「MetaGen Blended RAG」を紹介する。
重要な概念,トピック,頭字語を活用することで,メタデータに富んだセマンティックインデックスと,ハイブリッドクエリの強化を実現した。
バイオメディカルなPubMedQAデータセットでは、MetaGen Blended RAGが82%の検索精度と77%のRAG精度を実現し、以前のゼロショットRAGベンチマークを上回りました。
論文 参考訳(メタデータ) (2025-05-23T17:18:45Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。