論文の概要: Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems
- arxiv url: http://arxiv.org/abs/2604.17677v1
- Date: Mon, 20 Apr 2026 00:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.633686
- Title: Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems
- Title(参考訳): ベクトルベース検索における意味的絡み合い:エージェントRAGシステムのための形式的枠組みとコンテキスト調和型絡み合いパイプライン
- Authors: Nick Loghmani,
- Abstract要約: 埋め込み空間における交叉重なりのモデル相対尺度として意味的絡み合いを定式化する。
埋め込みに先立って文書を再構成する4段階の事前処理フレームワークであるセマンティック・ディスタングルメント・パイプライン(SDP)を紹介した。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems depend on the geometric properties of vector representations to retrieve contextually appropriate evidence. When source documents interleave multiple topics within contiguous text, standard vectorization produces embedding spaces in which semantically distinct content occupies overlapping neighborhoods. We term this condition semantic entanglement. We formalize entanglement as a model-relative measure of cross-topic overlap in embedding space and define an Entanglement Index (EI) as a quantitative proxy. We argue that higher EI constrains attainable Top-K retrieval precision under cosine similarity retrieval. To address this, we introduce the Semantic Disentanglement Pipeline (SDP), a four-stage preprocessing framework that restructures documents prior to embedding. We further propose context-conditioned preprocessing, in which document structure is shaped by patterns of operational use, and a continuous feedback mechanism that adapts document structure based on agent performance. We evaluate SDP on a real-world enterprise healthcare knowledge base comprising over 2,000 documents across approximately 25 sub-domains. Top-K retrieval precision improves from approximately 32% under fixed-token chunking to approximately 82% under SDP, while mean EI decreases from 0.71 to 0.14. We do not claim that entanglement fully explains RAG failure, but that it captures a distinct preprocessing failure mode that downstream optimization cannot reliably correct once encoded into the vector space.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、文脈的に適切な証拠を取得するためにベクトル表現の幾何学的性質に依存する。
ソース文書が連続したテキスト内で複数のトピックをインターリーブする場合、標準的なベクトル化は、意味的に異なる内容が重複する近傍を占有する埋め込み空間を生成する。
この条件を意味的絡み合いと呼ぶ。
エンタングルメントを埋め込み空間におけるクロストピックオーバーラップのモデル相対尺度として定式化し、エンタングルメント指数(EI)を定量的プロキシとして定義する。
我々は,コサイン類似性検索において,高いEI制約がTop-K検索精度を達成できることを論じる。
これを解決するために、埋め込み前にドキュメントを再構成する4段階の事前処理フレームワークであるSemantic Disentanglement Pipeline(SDP)を紹介します。
さらに、文書構造を運用上の使用パターンによって形作るコンテキスト条件付き事前処理と、エージェントの性能に基づいて文書構造に適応する継続的フィードバック機構を提案する。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
トップK検索精度は約32%からSDPで約82%に向上し、平均EIは0.71から0.14に低下する。
絡み合いがRAGの故障を完全に説明しているわけではないが、ベクトル空間にエンコードされたとき、下流の最適化が確実に修正できない、明確な前処理失敗モードを捉えている。
関連論文リスト
- TopoChunker: Topology-Aware Agentic Document Chunking Framework [5.304983617085637]
TopoChunkerは異種文書を構造化中間表現(Structured Intermediate Representation, SIR)にマッピングするエージェントフレームワークである
構造的忠実度と計算コストのバランスをとるため、TopoChunkerはデュアルエージェントアーキテクチャを採用している。
絶対生成精度が8.0%向上し、83.26%のRecall@3を達成し、同時にトークンオーバーヘッドを23.5%削減した。
論文 参考訳(メタデータ) (2026-03-19T02:15:10Z) - Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graphs for Retrieval-Augmented Generation [69.45495166424642]
我々は,物語文書における時間的,因果的,文字的整合性を理解するために,頑健で差別的なQAベンチマークを開発する。
次に、バイナリマッピングでリンクされたエンティティとイベントのサブグラフを分離したまま保持するデュアルグラフフレームワークであるEntity-Event RAG(E2RAG)を紹介します。
ChronoQA全体で、我々のアプローチは最先端の非構造化およびKGベースのRAGベースラインよりも優れており、因果一貫性クエリや文字整合性クエリが顕著である。
論文 参考訳(メタデータ) (2025-06-06T10:07:21Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Rethinking Reconstruction Autoencoder-Based Out-of-Distribution
Detection [0.0]
リコンストラクションオートエンコーダに基づく手法は、入力再構成誤差を新規性対正規性の計量として用いることでこの問題に対処する。
本稿では, 意味的再構成, データの確実性分解, 正規化L2距離を導入し, 元の手法を大幅に改善する。
提案手法は,追加データや実装の困難さ,時間を要するパイプライン,さらには既知のクラスの分類精度を損なうことなく機能する。
論文 参考訳(メタデータ) (2022-03-04T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。