論文の概要: SPIRE: Structure-Preserving Interpretable Retrieval of Evidence
- arxiv url: http://arxiv.org/abs/2604.20849v1
- Date: Thu, 12 Feb 2026 03:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.104725
- Title: SPIRE: Structure-Preserving Interpretable Retrieval of Evidence
- Title(参考訳): SPIRE: 構造保存の解釈可能な証拠検索
- Authors: Mike Rainey, Umut Acar, Muhammed Sezer,
- Abstract要約: 木構造ドキュメント上で動作する構造対応検索パイプラインを提案する。
私たちは、ドキュメントプリミティブの小さなセット、パスとパスセットを定義します。
グローバルな文脈化は、選択を理解不能にするために必要な非局所的な足場を追加する。
局所的な文脈化は、その構造領域内での種選択を拡張して、コンパクトで文脈に富んだビューを得る。
- 参考スコア(独自算出の注目度): 0.09558392439655013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation over semi-structured sources such as HTML is constrained by a mismatch between document structure and the flat, sequence-based interfaces of today's embedding and generative models. Retrieval pipelines often linearize documents into fixed-size chunks before indexing, which obscures section structure, lists, and tables, and makes it difficult to return small, citation-ready evidence without losing the surrounding context that makes it interpretable. We present a structure-aware retrieval pipeline that operates over tree-structured documents. The core idea is to represent candidates as subdocuments: precise, addressable selections that preserve structural identity while deferring the choice of surrounding context. We define a small set of document primitives--paths and path sets, subdocument extraction by pruning, and two contextualization mechanisms. Global contextualization adds the non-local scaffolding needed to make a selection intelligible (e.g., titles, headers, list and table structure). Local contextualization expands a seed selection within its structural neighborhood to obtain a compact, context-rich view under a target budget. Building on these primitives, we describe an embedding-based candidate generator that indexes sentence-seeded subdocuments and a query-time, document-aware aggregation step that amortizes shared structural context. We then introduce a contextual filtering stage that re-scores retrieved candidates using locally contextualized views. Across experiments on HTML question-answering benchmarks, we find that preserving structure while contextualizing selections yields higher-quality, more diverse citations under fixed budgets than strong passage-based baselines, while maintaining scalability.
- Abstract(参考訳): HTMLのような半構造化ソース上の検索拡張生成は、ドキュメント構造と今日の埋め込みおよび生成モデルにおけるフラットでシーケンスベースのインターフェースとのミスマッチによって制約される。
検索パイプラインは、しばしばインデックス化の前に文書を固定サイズのチャンクにリニア化するが、これはセクション構造、リスト、テーブルを曖昧にし、解釈可能な周囲のコンテキストを失うことなく、小さな引用可能な証拠を返すのを難しくする。
木構造ドキュメント上で動作する構造対応検索パイプラインを提案する。
中心となる考え方は、候補をサブドキュメントとして表現することである: 周囲のコンテキストの選択を遅らせながら構造的アイデンティティを保持する、正確でアドレス可能な選択である。
文書プリミティブの小さなセット-パスとパスセット、プルーニングによるサブドキュメント抽出、2つのコンテキスト化機構を定義します。
グローバルなコンテキスト化は、選択(タイトル、ヘッダ、リスト、テーブル構造など)を理解不能にするために必要な、非ローカルな足場を追加します。
局所的な文脈化は、ターゲット予算の下でコンパクトでコンテキストに富んだビューを得るために、その構造的地区内で種選択を拡張する。
これらのプリミティブに基づいて、文の種別サブドキュメントをインデクシングする埋め込みベースの候補ジェネレータと、共有構造コンテキストを記憶するクエリ時間対応のドキュメントアグリゲーションステップを記述する。
次に、局所的な文脈化ビューを用いて、検索した候補を再スコアするコンテキストフィルタリングステージを導入する。
提案手法は,HTML質問応答ベンチマーク実験において,コンテクスト化時に構造を保存することで,高いパスベースベースラインよりも高い品質,多彩な引用が得られ,スケーラビリティが維持される。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search [23.447631421934847]
DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
論文 参考訳(メタデータ) (2026-02-04T20:03:28Z) - Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems [0.7734726150561088]
大言語モデル(LLM)のコンテキストは通常、検索拡張生成(RAG)を用いて構築される。
本稿では,構造インフォームドおよび多様性に制約のあるコンテキストバブル構築フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-15T18:43:19Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。