論文の概要: A Comprehensive Survey on Vector Database: Storage and Retrieval
Technique, Challenge
- arxiv url: http://arxiv.org/abs/2310.11703v1
- Date: Wed, 18 Oct 2023 04:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 11:56:49.186900
- Title: A Comprehensive Survey on Vector Database: Storage and Retrieval
Technique, Challenge
- Title(参考訳): ベクトルデータベースに関する包括的調査:記憶・検索技術,チャレンジ
- Authors: Yikun Han, Chunjiang Liu, Pengfei Wang
- Abstract要約: ベクトルデータベースの背後にある近傍の探索問題については,長年にわたって研究されてきた。
本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
- 参考スコア(独自算出の注目度): 4.579314354865921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vector database is used to store high-dimensional data that cannot be
characterized by traditional DBMS. Although there are not many articles
describing existing or introducing new vector database architectures, the
approximate nearest neighbor search problem behind vector databases has been
studied for a long time, and considerable related algorithmic articles can be
found in the literature. This article attempts to comprehensively review
relevant algorithms to provide a general understanding of this booming research
area. The basis of our framework categorises these studies by the approach of
solving ANNS problem, respectively hash-based, tree-based, graph-based and
quantization-based approaches. Then we present an overview of existing
challenges for vector databases. Lastly, we sketch how vector databases can be
combined with large language models and provide new possibilities.
- Abstract(参考訳): ベクトルデータベースは、従来のDBMSで特徴づけられない高次元データを格納するために使用される。
既存のベクトルデータベースアーキテクチャや新しいデータベースアーキテクチャについて記述する記事は多くはないが、ベクトルデータベースの裏側にあるほぼ近傍の探索問題は長い間研究されてきた。
本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
本フレームワークの基盤は,ANNS問題,それぞれハッシュベース,ツリーベース,グラフベース,量子化ベースのアプローチを用いて,これらの研究を分類する。
次に,既存のベクトルデータベースの課題について概説する。
最後に,ベクトルデータベースを大規模言語モデルと組み合わせることで,新たな可能性を提供する。
関連論文リスト
- Using text embedding models and vector databases as text classifiers
with the example of medical data [0.0]
本稿では, 医学分野における例と応用例を用いて, テキストを符号化し, 分類する手段として, ベクトルデータベースと埋め込みモデルの利用について検討する。
これらのツールの堅牢性は、提示されるデータの空間性に大きく依存していることを示し、ベクトルデータベース自体の低量のデータであっても、ベクトルデータベースはデータを分類するのに良い仕事をする。
論文 参考訳(メタデータ) (2024-02-07T22:15:15Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - A Hierarchical Approach to exploiting Multiple Datasets from TalkBank [0.0]
本稿では、階層的な探索手法を用いて、効率的な複雑なデータ選択を可能にするパイプラインフレームワークを提案する。
このフレームワークは、他のオープンサイエンスプラットフォームからのデータ処理にも適用できる。
論文 参考訳(メタデータ) (2023-06-21T22:37:51Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link
Predictors [65.56849255423866]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Interpreting multi-variate models with setPCA [0.038478302549231076]
本稿では,既存の背景知識データベースと「オミクス」データを統合するアルゴリズムを提案する。
我々はMatlabにGUI(Graphical User Interface)を作成し、既知の設定情報をロードプロットにオーバーレイできるようにした。
各既知の集合に対して、既知の集合からの要素のサブセットをカバーする最適な凸包は、探索アルゴリズムによって発見され、表示される。
論文 参考訳(メタデータ) (2021-11-17T14:22:19Z) - Complex Coordinate-Based Meta-Analysis with Probabilistic Programming [0.0]
報告されたピークアクティベーションの座標と項関連を自動的に抽出することにより、コーディネートベースのメタアナリシス(CBMA)データベースを構築する。
本稿では,近年,大規模なニューロイメージングデータに拡張可能なクエリ処理アルゴリズムについて述べる。
シミュレーションされたメタアナリシスデータベースと広く使われているニューロシンスデータベースの両方において、2つの長期接続型クエリの結果を示す。
論文 参考訳(メタデータ) (2020-12-02T16:16:26Z) - Characterizing Transactional Databases for Frequent Itemset Mining [0.0]
本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。
提案するメトリクスリストには,文献で確認されている既存のメトリクスと,新たなメトリクスが含まれている。
我々は,ベンチマークとして安全に使用可能な特徴量に基づいて,代表データセットのセットを提供する。
論文 参考訳(メタデータ) (2020-11-09T12:26:14Z) - A Survey of Embedding Space Alignment Methods for Language and Knowledge
Graphs [77.34726150561087]
単語,文,知識グラフの埋め込みアルゴリズムに関する現在の研究状況について調査する。
本稿では、関連するアライメント手法の分類と、この研究分野で使用されるベンチマークデータセットについて論じる。
論文 参考訳(メタデータ) (2020-10-26T16:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。