論文の概要: HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis
- arxiv url: http://arxiv.org/abs/2508.05666v1
- Date: Fri, 01 Aug 2025 20:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.909697
- Title: HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis
- Title(参考訳): HySemRAG:自動文学合成と方法論ギャップ解析のためのハイブリッドセマンティック検索型生成フレームワーク
- Authors: Alejandro Godinez,
- Abstract要約: HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present HySemRAG, a framework that combines Extract, Transform, Load (ETL) pipelines with Retrieval-Augmented Generation (RAG) to automate large-scale literature synthesis and identify methodological research gaps. The system addresses limitations in existing RAG architectures through a multi-layered approach: hybrid retrieval combining semantic search, keyword filtering, and knowledge graph traversal; an agentic self-correction framework with iterative quality assurance; and post-hoc citation verification ensuring complete traceability. Our implementation processes scholarly literature through eight integrated stages: multi-source metadata acquisition, asynchronous PDF retrieval, custom document layout analysis using modified Docling architecture, bibliographic management, LLM-based field extraction, topic modeling, semantic unification, and knowledge graph construction. The system creates dual data products - a Neo4j knowledge graph enabling complex relationship queries and Qdrant vector collections supporting semantic search - serving as foundational infrastructure for verifiable information synthesis. Evaluation across 643 observations from 60 testing sessions demonstrates structured field extraction achieving 35.1% higher semantic similarity scores (0.655 $\pm$ 0.178) compared to PDF chunking approaches (0.485 $\pm$ 0.204, p < 0.000001). The agentic quality assurance mechanism achieves 68.3% single-pass success rates with 99.0% citation accuracy in validated responses. Applied to geospatial epidemiology literature on ozone exposure and cardiovascular disease, the system identifies methodological trends and research gaps, demonstrating broad applicability across scientific domains for accelerating evidence synthesis and discovery.
- Abstract(参考訳): 本稿では,抽出,変換,負荷(ETL)パイプラインと検索-拡張生成(RAG)を組み合わせた大規模文献合成の自動化と方法論研究のギャップの同定を行うフレームワークであるHySemRAGを提案する。
このシステムは, セマンティック検索, キーワードフィルタリング, 知識グラフトラバーサルを組み合わせたハイブリッド検索, 反復的品質保証を備えたエージェント自己補正フレームワーク, 完全トレーサビリティを保証するポストホック引用検証など, 既存のRAGアーキテクチャの制約に対処する。
本実装は,マルチソースメタデータ取得,非同期PDF検索,修正ドクリングアーキテクチャを用いたカスタム文書レイアウト解析,書誌管理,LLMに基づくフィールド抽出,トピックモデリング,セマンティック統一,知識グラフ構築という8つの統合段階を通じて学術的な論文処理を行う。
このシステムは、複雑な関係クエリを可能にするNeo4jナレッジグラフと、セマンティック検索をサポートするQdrantベクトルコレクションという、検証可能な情報合成の基盤となる2つのデータ製品を生成する。
60回の試験セッションから643回の観測で、PDFチャンキングアプローチ(0.485$\pm$ 0.204, p < 0.000001)と比較して、構造化されたフィールド抽出が35.1%高いセマンティック類似度スコア(0.655$\pm$0.178)を達成した。
エージェント品質保証機構は、検証された応答において、99.0%の引用精度で68.3%のシングルパス成功率を達成する。
オゾン暴露と心血管疾患に関する地理空間疫学の文献に応用され、このシステムは方法論的傾向と研究のギャップを特定し、証拠の合成と発見を加速するために科学的領域に広く適用可能であることを示す。
関連論文リスト
- RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation [5.081261104622565]
RANGER (Ranger) は、病理報告生成のための適応的検索を再度ランク付けした、疎結合なMixture-of-Experts (MoE) フレームワークである。
我々は、標準自然言語生成指標における既存のアプローチに対する一貫した改善を実証する。
我々の完全なRANGERモデルは、PathTextデータセット上で最適な性能を達成し、それぞれ0.4598、0.3044、0.2036、0.1435のBLEU-1からBLEU-4のスコアに達した。
論文 参考訳(メタデータ) (2026-03-04T18:12:31Z) - AI Co-Scientist for Knowledge Synthesis in Medical Contexts: A Proof of Concept [0.0]
本稿では,人口,インターベンション,コンパレータ,アウトカム,学習デザイン(PICOS)の明示的な形式化に基づく,スケーラブルで透明な知識合成のためのAIを提案する。
このプラットフォームはリレーショナルストレージ、ベクトルベースのセマンティック検索、Neo4jナレッジグラフを統合している。
その結果,PICOS対応で説明可能な自然言語処理は,エビデンス合成のスケーラビリティ,透明性,効率性を向上できることがわかった。
論文 参考訳(メタデータ) (2026-01-16T23:07:58Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T15:12:58Z) - Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering [49.43814054718318]
マルチホップ質問応答 (MHQA) は、正しい回答を得るために複数の経路に散在する知識を統合する必要がある。
従来の検索拡張生成法(RAG)は主に粗い粒度のテキスト意味的類似性に焦点を当てている。
本稿では,HGRAG for MHQAという新しいRAG手法を提案する。
論文 参考訳(メタデータ) (2025-08-15T06:36:13Z) - Open-Source Agentic Hybrid RAG Framework for Scientific Literature Review [2.092154729589438]
本稿では,ハイブリッドRAGパイプラインを自律エージェント内にカプセル化するエージェントアプローチを提案する。
当社のパイプラインでは,PubMedやarXiv,Google Scholar APIから,バイオロジカルなオープンアクセスデータを収集しています。
Llama-3.3-70B エージェントが GraphRAG (クエリを Cypher for KG に変換する) または VectorRAG (スパースと高密度検索を組み合わせて再ランク付けする) を選択する
論文 参考訳(メタデータ) (2025-07-30T18:54:15Z) - Analise Semantica Automatizada com LLM e RAG para Bulas Farmaceuticas [0.0]
本研究では,大規模言語モデル(LLM)と組み合わせたRAGアーキテクチャを用いて,PDF形式の文書解析を自動化する。
本提案では, 埋め込み, 意味データ抽出, 文脈化自然言語応答の生成によるベクトル探索手法を統合する。
論文 参考訳(メタデータ) (2025-07-07T17:48:15Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Reshaping MOFs text mining with a dynamic multi-agents framework of large language model [4.285805877963645]
原記事や結晶コードを読み取って,それらを標準化された合成表に変換する,大規模言語駆動システムMOFh6を提案する。
MOFh6は、99%の抽出精度を達成し、5大出版社で94.1%の短縮を解決し、0.93 +/- 0.01の精度を維持した。
論文 参考訳(メタデータ) (2025-04-26T09:55:04Z) - TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。
我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:45:27Z) - CG-RAG: Research Question Answering by Citation Graph Retrieval-Augmented LLMs [9.718354494802002]
CG-RAG(Contextualized Graph Retrieval-Augmented Generation)は、グラフ構造に疎密な検索信号を統合する新しいフレームワークである。
まず、引用グラフの文脈グラフ表現を提案し、文書内および文書間の明示的および暗黙的な接続を効果的にキャプチャする。
次にLexical-Semantic Graph Retrieval(LeSeGR)を提案する。
第3に,検索したグラフ構造化情報を利用した文脈認識生成手法を提案する。
論文 参考訳(メタデータ) (2025-01-25T04:18:08Z) - Enhancing Spectral Knowledge Interrogation: A Reliable Retrieval-Augmented Generative Framework on Large Language Models [0.0]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、一般領域内で大きな成功を収めている。
本稿では,SDAAP(Spectral Detection and Analysis Based Paper)データセットを紹介する。
また、SDAAPデータセットに基づく自動Q&Aフレームワークを設計し、関連する知識を検索し、高品質な応答を生成する。
論文 参考訳(メタデータ) (2024-08-21T12:09:37Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。