論文の概要: Topo-RAG: Topology-aware retrieval for hybrid text-table documents
- arxiv url: http://arxiv.org/abs/2601.10215v1
- Date: Thu, 15 Jan 2026 09:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.080019
- Title: Topo-RAG: Topology-aware retrieval for hybrid text-table documents
- Title(参考訳): Topo-RAG:ハイブリッドテキストテーブル文書のトポロジー対応検索
- Authors: Alex Dantart, Marco Kóvacs-Navarro,
- Abstract要約: この研究は「あらゆるものはテキストである」という仮定に挑戦するフレームワークであるTopo-RAGを提示する。
Topo-RAGは、標準的な線形化アプローチと比較して、ハイブリッドクエリではnDCG@10が18.4%改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In enterprise datasets, documents are rarely pure. They are not just text, nor just numbers; they are a complex amalgam of narrative and structure. Current Retrieval-Augmented Generation (RAG) systems have attempted to address this complexity with a blunt tool: linearization. We convert rich, multidimensional tables into simple Markdown-style text strings, hoping that an embedding model will capture the geometry of a spreadsheet in a single vector. But it has already been shown that this is mathematically insufficient. This work presents Topo-RAG, a framework that challenges the assumption that "everything is text". We propose a dual architecture that respects the topology of the data: we route fluid narrative through traditional dense retrievers, while tabular structures are processed by a Cell-Aware Late Interaction mechanism, preserving their spatial relationships. Evaluated on SEC-25, a synthetic enterprise corpus that mimics real-world complexity, Topo-RAG demonstrates an 18.4% improvement in nDCG@10 on hybrid queries compared to standard linearization approaches. It's not just about searching better; it's about understanding the shape of information.
- Abstract(参考訳): エンタープライズデータセットでは、ドキュメントが純粋なことはめったにない。
それらは単なるテキストではなく、数字でもなく、物語と構造からなる複雑なアマルガムである。
現在のRetrieval-Augmented Generation (RAG) システムは、この複雑さを単純なツールである線形化で解決しようと試みている。
リッチな多次元テーブルを単純なマークダウンスタイルのテキスト文字列に変換し、埋め込みモデルが単一のベクトルでスプレッドシートの幾何学を捉えることを期待する。
しかし、これは数学的に不十分であることがすでに示されている。
この研究は、"すべてのものはテキストである"という仮定に挑戦するフレームワークであるTopo-RAGを提示する。
我々は,従来の密集型レトリバーを流れる流体の物語をルートし,表層構造はセル・アウェア・レイトインタラクション機構によって処理され,それらの空間的関係は保たれるという,データのトポロジを尊重する2つのアーキテクチャを提案する。
Topo-RAGは、実世界の複雑さを模倣する合成エンタープライズコーパスであるSEC-25に基づいて評価され、標準線形化アプローチと比較して、ハイブリッドクエリにおけるnDCG@10は18.4%改善されている。
単により良い情報を探すことではなく、情報の形を理解することです。
関連論文リスト
- UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - HetaRAG: Hybrid Deep Retrieval-Augmented Generation across Heterogeneous Data Stores [33.795387138571286]
HetaRAGは、異種データストアからのクロスモーダルエビデンスをオーケストレーションする、ハイブリッドで深層検索可能な拡張生成フレームワークである。
HetaRAGはベクトルインデックス、知識グラフ、フルテキストエンジン、構造化データベースを単一の検索プレーンに統合する。
論文 参考訳(メタデータ) (2025-09-12T06:12:59Z) - TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning [7.706148486477738]
Retrieval-Augmented Generation (RAG) は、オープンドメイン質問応答においてかなりの効果を示した。
既存のRAGアプローチでは、異種文書に適用する場合に限界がある。
論文 参考訳(メタデータ) (2025-06-12T06:16:49Z) - Mixture-of-RAG: Integrating Text and Tables with Large Language Models [5.038576104344948]
不均一文書RAGは、テキストデータと階層データ間の共同検索と推論を必要とする。
階層構造と異種関係を保存する新しい3段階フレームワークであるMixRAGを提案する。
実験の結果、MixRAGは強いテキストのみ、テーブルのみ、ナイーブミキサーベースラインよりもトップ1検索を46%向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。