論文の概要: Evidence Units: Ontology-Grounded Document Organization for Parser-Independent Retrieval
- arxiv url: http://arxiv.org/abs/2604.00500v1
- Date: Wed, 01 Apr 2026 05:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.84711
- Title: Evidence Units: Ontology-Grounded Document Organization for Parser-Independent Retrieval
- Title(参考訳): Evidence Units:Parser-Independent Retrievalのためのオントロジーを取り巻くドキュメント組織
- Authors: Yeonjee Han,
- Abstract要約: 要素レベルの索引付けは、独立したチャンクとして解析された全ての要素を扱い、セマンティックな結合単位を別々の検索候補に分散させる。
本稿では,エビデンス・ユニット(EU)を構成するパイプラインについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured documents--tables paired with captions, figures with explanations, equations with the paragraphs that interpret them--are routinely fragmented when indexed for retrieval. Element-level indexing treats every parsed element as an independent chunk, scattering semantically cohesive units across separate retrieval candidates. This paper presents a parser-independent pipeline that constructs Evidence Units (EUs): semantically complete document chunks that group visual assets with their contextual text. We introduce four contributions: (1) ontology-grounded role normalization extending DoCO that maps heterogeneous parser outputs to a unified semantic schema; (2) a semantic global assignment algorithm that optimally assigns paragraphs to EUs via a full similarity matrix; (3) a graph-based decision layer in Neo4j that formalizes EU construction rules and validates completeness through two invariants; and (4) cross-parser validation showing EU spatial footprints converge across MinerU and Docling, with gains preserved under parser-induced bbox variance. Experiments on OmniDocBench v1.0 (1,340 pages; 1,551 QA pairs) show EU-based chunking improves retrieval LCS by +0.31 (0.50 to 0.81). Recall@1 increases from 0.15 to 0.51 (3.4x) and MinK decreases from 2.58 to 1.72. Cross-parser results confirm the gain (LCS +0.23 to +0.31) is preserved across parsers. Text queries show the most dramatic gain: Recall@1 rises from 0.08 to 0.47.
- Abstract(参考訳): 構造化文書-キャプション、説明付き数字、解釈する段落と方程式を合わせたテーブル-検索のために索引付けされた場合、定期的に断片化される。
要素レベルの索引付けは、全ての解析された要素を独立したチャンクとして扱い、セマンティックな結合単位を別々の検索候補に分散させる。
本稿では,エビデンス・ユニット(EU)を構成するパーサ非依存パイプラインについて述べる。
我々は,(1)異種パーサの出力を統一的なセマンティックスキーマにマッピングするDoCOを拡張したオントロジー的役割正規化,(2)完全な類似性行列を介して段落をEUに最適に割り当てるセマンティックグローバル代入アルゴリズム,(3)EU構築規則を定式化し2つの不変量を通して完全性を検証するNeo4jのグラフベースの決定層,(4)EU空間フットプリントがMinerUとDoclingに収束することを示すクロスパーサー検証,の4つのコントリビューションを紹介する。
OmniDocBench v1.0 (1,340ページ; 1,551 QAペア)の実験では、EUベースのチャンキングは、検索LCSを+0.31(0.50から0.81)改善している。
Recall@1 は 0.15 から 0.51 (3.4x) に増加し、MinK は 2.58 から 1.72 に減少する。
クロスパーサーの結果、利得(LCS+0.23〜+0.31)がパーサー間で保持されることを確認した。
Recall@1は0.08から0.47に上昇します。
関連論文リスト
- Graph-Aware Late Chunking for Retrieval-Augmented Generation in Biomedical Literature [0.0]
GraLC-RAGは、グラフ認識構造インテリジェンスと遅延チャンキングを統合するフレームワークである。
2,359 IMRaD-filtered Centralの項目に対して,2,033の横断質問を用いた6つの戦略を評価する。
論文 参考訳(メタデータ) (2026-03-23T23:22:58Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - Cross-Document Topic-Aligned Chunking for Retrieval-Augmented Generation [0.0]
Cross-Document Topic-Alignedチャンキングは、コーパスレベルで知識を再構築する。
まず、文書間でトピックを特定し、各トピックにセグメントをマップし、それらを統一されたチャンクに合成する。
論文 参考訳(メタデータ) (2025-11-08T11:45:45Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。