論文の概要: A Comprehensive Survey on Vector Database: Storage and Retrieval
Technique, Challenge
- arxiv url: http://arxiv.org/abs/2310.11703v1
- Date: Wed, 18 Oct 2023 04:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 11:56:49.186900
- Title: A Comprehensive Survey on Vector Database: Storage and Retrieval
Technique, Challenge
- Title(参考訳): ベクトルデータベースに関する包括的調査:記憶・検索技術,チャレンジ
- Authors: Yikun Han, Chunjiang Liu, Pengfei Wang
- Abstract要約: ベクトルデータベースの背後にある近傍の探索問題については,長年にわたって研究されてきた。
本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
- 参考スコア(独自算出の注目度): 4.579314354865921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vector database is used to store high-dimensional data that cannot be
characterized by traditional DBMS. Although there are not many articles
describing existing or introducing new vector database architectures, the
approximate nearest neighbor search problem behind vector databases has been
studied for a long time, and considerable related algorithmic articles can be
found in the literature. This article attempts to comprehensively review
relevant algorithms to provide a general understanding of this booming research
area. The basis of our framework categorises these studies by the approach of
solving ANNS problem, respectively hash-based, tree-based, graph-based and
quantization-based approaches. Then we present an overview of existing
challenges for vector databases. Lastly, we sketch how vector databases can be
combined with large language models and provide new possibilities.
- Abstract(参考訳): ベクトルデータベースは、従来のDBMSで特徴づけられない高次元データを格納するために使用される。
既存のベクトルデータベースアーキテクチャや新しいデータベースアーキテクチャについて記述する記事は多くはないが、ベクトルデータベースの裏側にあるほぼ近傍の探索問題は長い間研究されてきた。
本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
本フレームワークの基盤は,ANNS問題,それぞれハッシュベース,ツリーベース,グラフベース,量子化ベースのアプローチを用いて,これらの研究を分類する。
次に,既存のベクトルデータベースの課題について概説する。
最後に,ベクトルデータベースを大規模言語モデルと組み合わせることで,新たな可能性を提供する。
関連論文リスト
- A Survey on Computational Solutions for Reconstructing Complete Objects by Reassembling Their Fractured Parts [25.59032022422813]
完全な対象をその部分から再構成することは、多くの科学領域における根本的な問題である。
この文脈で既存のアルゴリズムを提供し、それらの類似点と汎用アプローチとの相違点を強調する。
アルゴリズムに加えて、この調査では既存のデータセット、オープンソースソフトウェアパッケージ、アプリケーションについても記述する。
論文 参考訳(メタデータ) (2024-10-18T17:53:07Z) - Dissecting embedding method: learning higher-order structures from data [0.0]
データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。
これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
論文 参考訳(メタデータ) (2024-10-14T08:19:39Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Using text embedding models and vector databases as text classifiers
with the example of medical data [0.0]
本稿では, 医学分野における例と応用例を用いて, テキストを符号化し, 分類する手段として, ベクトルデータベースと埋め込みモデルの利用について検討する。
これらのツールの堅牢性は、提示されるデータの空間性に大きく依存していることを示し、ベクトルデータベース自体の低量のデータであっても、ベクトルデータベースはデータを分類するのに良い仕事をする。
論文 参考訳(メタデータ) (2024-02-07T22:15:15Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors [58.340159346749964]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Complex Coordinate-Based Meta-Analysis with Probabilistic Programming [0.0]
報告されたピークアクティベーションの座標と項関連を自動的に抽出することにより、コーディネートベースのメタアナリシス(CBMA)データベースを構築する。
本稿では,近年,大規模なニューロイメージングデータに拡張可能なクエリ処理アルゴリズムについて述べる。
シミュレーションされたメタアナリシスデータベースと広く使われているニューロシンスデータベースの両方において、2つの長期接続型クエリの結果を示す。
論文 参考訳(メタデータ) (2020-12-02T16:16:26Z) - Characterizing Transactional Databases for Frequent Itemset Mining [0.0]
本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。
提案するメトリクスリストには,文献で確認されている既存のメトリクスと,新たなメトリクスが含まれている。
我々は,ベンチマークとして安全に使用可能な特徴量に基づいて,代表データセットのセットを提供する。
論文 参考訳(メタデータ) (2020-11-09T12:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。