論文の概要: Bridging OLAP and RAG: A Multidimensional Approach to the Design of Corpus Partitioning
- arxiv url: http://arxiv.org/abs/2601.03748v1
- Date: Wed, 07 Jan 2026 09:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.174582
- Title: Bridging OLAP and RAG: A Multidimensional Approach to the Design of Corpus Partitioning
- Title(参考訳): OLAPとRAGのブリッジ : コーパス分割設計への多次元的アプローチ
- Authors: Dario Maio, Stefano Rizzi,
- Abstract要約: RAGコーパスのための多次元分割の設計を導くための概念的枠組みを提案する。
このフレームワークは階層的なルーティングと制御されたフォールバック戦略を自然にサポートし、不完全なメタデータが存在する場合でも検索が堅牢であることを保証する。
- 参考スコア(独自算出の注目度): 0.3437656066916039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems are increasingly deployed on large-scale document collections, often comprising millions of documents and tens of millions of text chunks. In industrial-scale retrieval platforms, scalability is typically addressed through horizontal sharding and a combination of Approximate Nearest-Neighbor search, hybrid indexing, and optimized metadata filtering. Although effective from an efficiency perspective, these mechanisms rely on bottom-up, similarity-driven organization and lack a conceptual rationale for corpus partitioning. In this paper, we claim that the design of large-scale RAG systems may benefit from the combination of two orthogonal strategies: semantic clustering, which optimizes locality in embedding space, and multidimensional partitioning, which governs where retrieval should occur based on conceptual dimensions such as time and organizational context. Although such dimensions are already implicitly present in current systems, they are used in an ad hoc and poorly structured manner. We propose the Dimensional Fact Model (DFM) as a conceptual framework to guide the design of multidimensional partitions for RAG corpora. The DFM provides a principled way to reason about facts, dimensions, hierarchies, and granularity in retrieval-oriented settings. This framework naturally supports hierarchical routing and controlled fallback strategies, ensuring that retrieval remains robust even in the presence of incomplete metadata, while transforming the search process from a 'black-box' similarity matching into a governable and deterministic workflow. This work is intended as a position paper; its goal is to bridge the gap between OLAP-style multidimensional modeling and modern RAG architectures, and to stimulate further research on principled, explainable, and governable retrieval strategies at scale.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、数百万のドキュメントと数千万のテキストチャンクからなる大規模なドキュメントコレクションにますますデプロイされている。
産業規模の検索プラットフォームでは、スケーラビリティは水平シャーディングと、近似近傍探索、ハイブリッドインデックス、最適化メタデータフィルタリングの組み合わせによって対処されるのが一般的である。
効率性の観点からは有効であるが、これらのメカニズムはボトムアップ、類似性駆動型組織に依存し、コーパスパーティショニングの理論的根拠を欠いている。
本稿では, 大規模RAGシステムの設計は, 組込み空間の局所性を最適化するセマンティッククラスタリングと, 時間や組織的コンテキストといった概念的次元に基づいて, 検索を行うべき場所を規定する多次元分割という2つの直交戦略の組合せから恩恵を受けることができると主張している。
このような次元は、既に現在のシステムに暗黙的に存在しているが、アドホックで構造が不十分な方法で使用されている。
RAGコーパスの多次元分割設計を導くための概念的枠組みとして次元ファクトモデル(DFM)を提案する。
DFMは、検索指向の設定における事実、次元、階層、粒度を推論するための原則化された方法を提供する。
このフレームワークは、階層的なルーティングと制御されたフォールバック戦略を自然にサポートし、不完全なメタデータが存在する場合でも検索が堅牢であることを保証すると同時に、検索プロセスを「ブラックボックス」類似性マッチングから支配的で決定論的ワークフローに変換する。
本研究の目的は,OLAP方式の多次元モデリングと現代的なRAGアーキテクチャのギャップを埋めることと,原理的,説明可能,管理可能な大規模検索戦略のさらなる研究を促進することである。
関連論文リスト
- CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - A Simple and Effective Framework for Symmetric Consistent Indexing in Large-Scale Dense Retrieval [11.72564658353791]
大規模情報検索システムでは,高効率・競争精度のため,高密度検索が業界標準となっている。
広く採用されているデュアルトウワー符号化アーキテクチャは、主に表現空間のミスアライメントと検索インデックスの不整合という、固有の課題を導入している。
本稿では2つの相乗的モジュールからなるシンプルで効果的なSCIフレームワークを提案する。
提案手法の有効性は,公開データセットと実世界のeコマースデータセットにまたがる結果によって検証され,理論的に保証される。
論文 参考訳(メタデータ) (2025-12-15T08:11:24Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Domain-Specific Data Generation Framework for RAG Adaptation [58.20906914537952]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルの言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。
本稿では,様々なRAG適応手法に合わせて,ドメイン基底型質問応答コンテキスト(QAC)トリプルを生成するフレームワークであるRAGenを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:59:49Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - Faster Learned Sparse Retrieval with Block-Max Pruning [11.080810272211906]
本稿では,学習されたスパース検索環境に出現するインデックスに適した,革新的な動的プルーニング戦略であるBlock-Max Pruning(BMP)を紹介する。
BMPは既存の動的プルーニング戦略を大幅に上回り、安全な検索コンテキストにおいて非並列効率を提供する。
論文 参考訳(メタデータ) (2024-05-02T09:26:30Z) - AMCAD: Adaptive Mixed-Curvature Representation based Advertisement
Retrieval System [18.07821800367287]
非ユークリッド空間における複素および異種グラフ構造を自動的にキャプチャするウェブスケール適応型混合グラフ広告検索システム(AMCAD)を提案する。
ユーザ数億の最大のeコマースプラットフォームであるTaobaoにAMCADをデプロイするために,効率的な2層オンライン検索フレームワークを設計する。
論文 参考訳(メタデータ) (2022-03-28T12:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。