論文の概要: NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering
- arxiv url: http://arxiv.org/abs/2505.19754v2
- Date: Sat, 31 May 2025 07:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:29.990777
- Title: NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering
- Title(参考訳): NeuSym-RAG: PDF質問応答のためのマルチビュー構造化によるハイブリッドニューラルシンボリック検索
- Authors: Ruisheng Cao, Hanchong Zhang, Tiancheng Huang, Zhangyi Kang, Yuxin Zhang, Liangtai Sun, Hanqi Li, Yuxun Miao, Shuai Fan, Lu Chen, Kai Yu,
- Abstract要約: NeuSym-RAGは、両方のパラダイムをインタラクティブなプロセスで組み合わせたハイブリッドニューラルネットワークのシンボル検索フレームワークである。
NeuSym-RAGは半構造化PDFコンテンツをリレーショナルデータベースとベクトルストアの両方に整理する。
自己注釈付きAIRQA-REALを含む3つのPDFベースのQAデータセットの実験では、NeuSym-RAGがベクターベースRAGと様々な構造ベースラインの両方を安定して打ち負かすことが示されている。
- 参考スコア(独自算出の注目度): 20.44642427268575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing number of academic papers poses significant challenges for researchers to efficiently acquire key details. While retrieval augmented generation (RAG) shows great promise in large language model (LLM) based automated question answering, previous works often isolate neural and symbolic retrieval despite their complementary strengths. Moreover, conventional single-view chunking neglects the rich structure and layout of PDFs, e.g., sections and tables. In this work, we propose NeuSym-RAG, a hybrid neural symbolic retrieval framework which combines both paradigms in an interactive process. By leveraging multi-view chunking and schema-based parsing, NeuSym-RAG organizes semi-structured PDF content into both the relational database and vectorstore, enabling LLM agents to iteratively gather context until sufficient to generate answers. Experiments on three full PDF-based QA datasets, including a self-annotated one AIRQA-REAL, show that NeuSym-RAG stably defeats both the vector-based RAG and various structured baselines, highlighting its capacity to unify both retrieval schemes and utilize multiple views. Code and data are publicly available at https://github.com/X-LANCE/NeuSym-RAG.
- Abstract(参考訳): 学術論文の増加は、研究者が重要な詳細を効率的に取得する上で大きな課題となっている。
検索拡張生成(RAG)は,大規模言語モデル(LLM)に基づく自動質問応答において大きな可能性を示す一方で,従来の研究では,補完的な強みにもかかわらず,ニューラル検索とシンボル検索を分離することが多かった。
さらに、従来の単一ビューチャンキングはPDF、例えばセクション、テーブルのリッチな構造とレイアウトを無視している。
本研究では,2つのパラダイムを対話的なプロセスで組み合わせたハイブリッドニューラルシンボリック検索フレームワークであるNeuSym-RAGを提案する。
マルチビューチャンキングとスキーマベースの解析を活用することで、NeuSym-RAGは半構造化PDFコンテンツをリレーショナルデータベースとベクターストアの両方に整理し、LLMエージェントが応答を生成するのに十分なコンテキストを反復的に収集することを可能にする。
自己注釈付きAIRQA-REALを含む3つのPDFベースのQAデータセットの実験では、NeuSym-RAGはベクトルベースRAGと様々な構造ベースラインの両方を安定的に破り、検索スキームを統一し、複数のビューを利用する能力を強調している。
コードとデータはhttps://github.com/X-LANCE/NeuSym-RAGで公開されている。
関連論文リスト
- Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [18.96570718233786]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation [11.53083922927901]
HM-RAGは階層型マルチエージェントマルチモーダルRAGフレームワークである。
構造化、非構造化、グラフベースのデータ間での動的知識合成のための協調知能の先駆者である。
論文 参考訳(メタデータ) (2025-04-13T06:55:33Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - SiReRAG: Indexing Similar and Related Information for Multihop Reasoning [96.60045548116584]
SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。
SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
論文 参考訳(メタデータ) (2024-12-09T04:56:43Z) - CAISSON: Concept-Augmented Inference Suite of Self-Organizing Neural Networks [0.0]
本稿では,レトリーバル・Augmented Generation(RAG)に対する新しい階層的アプローチであるCAISSONを紹介する。
CAISSONの中核は、文書空間の補完的な組織ビューを作成するために、二重自己組織化マップ(SOM)を活用している。
CAISSONを評価するために,合成財務分析ノートと質問応答ペアを生成するフレームワークであるSynFAQAを開発した。
論文 参考訳(メタデータ) (2024-12-03T21:00:10Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。