論文の概要: Beyond Nearest Neighbors: Semantic Compression and Graph-Augmented Retrieval for Enhanced Vector Search
- arxiv url: http://arxiv.org/abs/2507.19715v1
- Date: Fri, 25 Jul 2025 23:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.066788
- Title: Beyond Nearest Neighbors: Semantic Compression and Graph-Augmented Retrieval for Enhanced Vector Search
- Title(参考訳): 最寄りの隣人を超えて: セマンティック圧縮とグラフ拡張検索によるベクトル探索
- Authors: Rahul Raja, Arpita Vats,
- Abstract要約: 本稿では,クエリの周囲のより広いセマンティック構造をキャプチャする,コンパクトで代表的なベクトル群を選択することを目的としたセマンティック圧縮という新しい検索パラダイムを提案する。
このアイデアを運用するために,ベクトル空間上に意味グラフ(kNNや知識ベースリンクなど)をオーバーレイするグラフ拡張ベクター検索を提案する。
本研究は,ハイブリットインデックス,多様性を考慮したクエリ,構造化セマンティック検索を重視した意味中心ベクトル探索システムの基礎を概説する。
- 参考スコア(独自算出の注目度): 2.377892000761193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector databases typically rely on approximate nearest neighbor (ANN) search to retrieve the top-k closest vectors to a query in embedding space. While effective, this approach often yields semantically redundant results, missing the diversity and contextual richness required by applications such as retrieval-augmented generation (RAG), multi-hop QA, and memory-augmented agents. We introduce a new retrieval paradigm: semantic compression, which aims to select a compact, representative set of vectors that captures the broader semantic structure around a query. We formalize this objective using principles from submodular optimization and information geometry, and show that it generalizes traditional top-k retrieval by prioritizing coverage and diversity. To operationalize this idea, we propose graph-augmented vector retrieval, which overlays semantic graphs (e.g., kNN or knowledge-based links) atop vector spaces to enable multi-hop, context-aware search. We theoretically analyze the limitations of proximity-based retrieval under high-dimensional concentration and highlight how graph structures can improve semantic coverage. Our work outlines a foundation for meaning-centric vector search systems, emphasizing hybrid indexing, diversity-aware querying, and structured semantic retrieval. We make our implementation publicly available to foster future research in this area.
- Abstract(参考訳): ベクトルデータベースは通常、最上位に近いベクトルを埋め込み空間のクエリに取得するために、近接した近傍(ANN)探索に依存する。
効果的ではあるが、このアプローチは意味的に冗長な結果をもたらすことが多く、検索強化生成(RAG)、マルチホップQA、メモリ拡張エージェントなどのアプリケーションに必要な多様性とコンテキスト豊かさを欠いている。
本稿では,クエリの周囲のより広いセマンティック構造をキャプチャする,コンパクトで代表的なベクトル群を選択することを目的としたセマンティック圧縮という新しい検索パラダイムを提案する。
我々は、この目的をサブモジュール最適化と情報幾何学の原理を用いて定式化し、カバー範囲と多様性を優先することで従来のトップk検索を一般化することを示す。
このアイデアを運用するために,ベクトル空間上の意味グラフ(例えば,kNNや知識ベースリンク)をオーバーレイして,マルチホップでコンテキスト対応な検索を可能にするグラフ拡張ベクトル検索を提案する。
我々は,高次元集中下での近接検索の限界を理論的に解析し,グラフ構造がセマンティックカバレッジをどのように改善するかを強調した。
本研究は,ハイブリットインデックス,多様性を考慮したクエリ,構造化セマンティック検索を重視した意味中心ベクトル探索システムの基礎を概説する。
我々は,この領域における今後の研究を促進するために,実装を一般公開する。
関連論文リスト
- NaviX: A Native Vector Index Design for Graph DBMSs With Robust Predicate-Agnostic Search Performance [7.108581652658526]
グラフ(GDBMS)のネイティブベクトルインデックスであるNaviXを提示する。
NaviXは階層的ナビゲート可能な小型世界(HNSW)グラフ上に構築されている。
論文 参考訳(メタデータ) (2025-06-29T21:16:07Z) - Infinity Search: Approximate Vector Search with Projections on q-Metric Spaces [94.12116458306916]
我々は、$q$の測度空間において、計量木は三角形の不等式のより強いバージョンを活用でき、正確な探索の比較を減らすことができることを示した。
任意の異方性測度を持つデータセットを$q$-metric空間に埋め込む新しい射影法を提案する。
論文 参考訳(メタデータ) (2025-06-06T22:09:44Z) - Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。
まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。
次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文 参考訳(メタデータ) (2025-04-08T15:22:08Z) - Down with the Hierarchy: The 'H' in HNSW Stands for "Hubs" [9.912508121466995]
ベクトル埋め込みの近似近傍探索(ANN)におけるアルゴリズム設計の性質について検討する。
平坦なナビゲート可能な小世界グラフは、高次元データセットにおけるHNSWの利点をすべて保持している。
我々はさらに一歩進んで、HNSWの階層構造が高次元において何の利益も与えない理由について研究する。
論文 参考訳(メタデータ) (2024-12-02T20:04:06Z) - VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and
Optimized Search [1.0411820336052784]
本稿では、高度なアルゴリズム、埋め込み、インデックス化技術を活用して洗練された検索を行うVectorSearchを提案する。
提案手法は,革新的なマルチベクタ探索操作と高度な言語モデルによる検索の符号化を利用して,検索精度を大幅に向上させる。
実世界のデータセットの実験では、VectorSearchがベースラインのメトリクスを上回っている。
論文 参考訳(メタデータ) (2024-09-25T21:58:08Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Efficient Data Access Paths for Mixed Vector-Relational Search [8.80592433569832]
機械学習とベクトル埋め込みを用いたデータ処理手法の採用は、ベクトルデータ管理のためのシステム構築に大きな関心を喚起した。
ベクトルデータ管理の主流のアプローチは、ベクトル埋め込み全体を高速に検索するために特別なインデックス構造を使用することであるが、一度他の(メタ)データと組み合わせると、検索クエリはリレーショナル属性に対して選択的になる。
ベクトルインデックスは従来の関係データアクセスと異なるため、効率的な混合ベクトル関係探索のための代替アクセスパスを再検討し分析する。
論文 参考訳(メタデータ) (2024-03-23T11:34:17Z) - Vector search with small radiuses [10.880913075221361]
本稿では,ベクトル検索結果に応じて難しい決定を下す必要がある場合に着目する。
本研究では,クエリー・ツー・ベクター距離に基づいて,範囲探索結果の値を厳密にモデル化できることを示す。
これにより、範囲探索の指標 RSM が得られ、これは原則的であり、エンドツーエンドの評価を行なわずに計算が容易である。
論文 参考訳(メタデータ) (2024-03-16T00:34:25Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。