論文の概要: HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis
- arxiv url: http://arxiv.org/abs/2508.05666v1
- Date: Fri, 01 Aug 2025 20:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.909697
- Title: HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis
- Title(参考訳): HySemRAG:自動文学合成と方法論ギャップ解析のためのハイブリッドセマンティック検索型生成フレームワーク
- Authors: Alejandro Godinez,
- Abstract要約: HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present HySemRAG, a framework that combines Extract, Transform, Load (ETL) pipelines with Retrieval-Augmented Generation (RAG) to automate large-scale literature synthesis and identify methodological research gaps. The system addresses limitations in existing RAG architectures through a multi-layered approach: hybrid retrieval combining semantic search, keyword filtering, and knowledge graph traversal; an agentic self-correction framework with iterative quality assurance; and post-hoc citation verification ensuring complete traceability. Our implementation processes scholarly literature through eight integrated stages: multi-source metadata acquisition, asynchronous PDF retrieval, custom document layout analysis using modified Docling architecture, bibliographic management, LLM-based field extraction, topic modeling, semantic unification, and knowledge graph construction. The system creates dual data products - a Neo4j knowledge graph enabling complex relationship queries and Qdrant vector collections supporting semantic search - serving as foundational infrastructure for verifiable information synthesis. Evaluation across 643 observations from 60 testing sessions demonstrates structured field extraction achieving 35.1% higher semantic similarity scores (0.655 $\pm$ 0.178) compared to PDF chunking approaches (0.485 $\pm$ 0.204, p < 0.000001). The agentic quality assurance mechanism achieves 68.3% single-pass success rates with 99.0% citation accuracy in validated responses. Applied to geospatial epidemiology literature on ozone exposure and cardiovascular disease, the system identifies methodological trends and research gaps, demonstrating broad applicability across scientific domains for accelerating evidence synthesis and discovery.
- Abstract(参考訳): 本稿では,抽出,変換,負荷(ETL)パイプラインと検索-拡張生成(RAG)を組み合わせた大規模文献合成の自動化と方法論研究のギャップの同定を行うフレームワークであるHySemRAGを提案する。
このシステムは, セマンティック検索, キーワードフィルタリング, 知識グラフトラバーサルを組み合わせたハイブリッド検索, 反復的品質保証を備えたエージェント自己補正フレームワーク, 完全トレーサビリティを保証するポストホック引用検証など, 既存のRAGアーキテクチャの制約に対処する。
本実装は,マルチソースメタデータ取得,非同期PDF検索,修正ドクリングアーキテクチャを用いたカスタム文書レイアウト解析,書誌管理,LLMに基づくフィールド抽出,トピックモデリング,セマンティック統一,知識グラフ構築という8つの統合段階を通じて学術的な論文処理を行う。
このシステムは、複雑な関係クエリを可能にするNeo4jナレッジグラフと、セマンティック検索をサポートするQdrantベクトルコレクションという、検証可能な情報合成の基盤となる2つのデータ製品を生成する。
60回の試験セッションから643回の観測で、PDFチャンキングアプローチ(0.485$\pm$ 0.204, p < 0.000001)と比較して、構造化されたフィールド抽出が35.1%高いセマンティック類似度スコア(0.655$\pm$0.178)を達成した。
エージェント品質保証機構は、検証された応答において、99.0%の引用精度で68.3%のシングルパス成功率を達成する。
オゾン暴露と心血管疾患に関する地理空間疫学の文献に応用され、このシステムは方法論的傾向と研究のギャップを特定し、証拠の合成と発見を加速するために科学的領域に広く適用可能であることを示す。
関連論文リスト
- Analise Semantica Automatizada com LLM e RAG para Bulas Farmaceuticas [0.0]
本研究では,大規模言語モデル(LLM)と組み合わせたRAGアーキテクチャを用いて,PDF形式の文書解析を自動化する。
本提案では, 埋め込み, 意味データ抽出, 文脈化自然言語応答の生成によるベクトル探索手法を統合する。
論文 参考訳(メタデータ) (2025-07-07T17:48:15Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Reshaping MOFs text mining with a dynamic multi-agents framework of large language model [4.285805877963645]
原記事や結晶コードを読み取って,それらを標準化された合成表に変換する,大規模言語駆動システムMOFh6を提案する。
MOFh6は、99%の抽出精度を達成し、5大出版社で94.1%の短縮を解決し、0.93 +/- 0.01の精度を維持した。
論文 参考訳(メタデータ) (2025-04-26T09:55:04Z) - TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。
我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:45:27Z) - CG-RAG: Research Question Answering by Citation Graph Retrieval-Augmented LLMs [9.718354494802002]
CG-RAG(Contextualized Graph Retrieval-Augmented Generation)は、グラフ構造に疎密な検索信号を統合する新しいフレームワークである。
まず、引用グラフの文脈グラフ表現を提案し、文書内および文書間の明示的および暗黙的な接続を効果的にキャプチャする。
次にLexical-Semantic Graph Retrieval(LeSeGR)を提案する。
第3に,検索したグラフ構造化情報を利用した文脈認識生成手法を提案する。
論文 参考訳(メタデータ) (2025-01-25T04:18:08Z) - Enhancing Spectral Knowledge Interrogation: A Reliable Retrieval-Augmented Generative Framework on Large Language Models [0.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、一般領域内で大きな成功を収めている。
本稿では,SDAAP(Spectral Detection and Analysis Based Paper)データセットを紹介する。
また、SDAAPデータセットに基づく自動Q&Aフレームワークを設計し、関連する知識を検索し、高品質な応答を生成する。
論文 参考訳(メタデータ) (2024-08-21T12:09:37Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。