Fugu-MT 論文翻訳(概要): A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge

論文の概要: A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge

arxiv url: http://arxiv.org/abs/2310.11703v1
Date: Wed, 18 Oct 2023 04:31:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 11:56:49.186900
Title: A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge
Title（参考訳）: ベクトルデータベースに関する包括的調査:記憶・検索技術,チャレンジ
Authors: Yikun Han, Chunjiang Liu, Pengfei Wang
Abstract要約: ベクトルデータベースの背後にある近傍の探索問題については,長年にわたって研究されてきた。本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。
参考スコア（独自算出の注目度）: 4.579314354865921
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A vector database is used to store high-dimensional data that cannot be characterized by traditional DBMS. Although there are not many articles describing existing or introducing new vector database architectures, the approximate nearest neighbor search problem behind vector databases has been studied for a long time, and considerable related algorithmic articles can be found in the literature. This article attempts to comprehensively review relevant algorithms to provide a general understanding of this booming research area. The basis of our framework categorises these studies by the approach of solving ANNS problem, respectively hash-based, tree-based, graph-based and quantization-based approaches. Then we present an overview of existing challenges for vector databases. Lastly, we sketch how vector databases can be combined with large language models and provide new possibilities.
Abstract（参考訳）: ベクトルデータベースは、従来のDBMSで特徴づけられない高次元データを格納するために使用される。既存のベクトルデータベースアーキテクチャや新しいデータベースアーキテクチャについて記述する記事は多くはないが、ベクトルデータベースの裏側にあるほぼ近傍の探索問題は長い間研究されてきた。本稿では,この急激な研究領域を総合的に理解するために,関連するアルゴリズムを包括的に検討する。本フレームワークの基盤は,ANNS問題,それぞれハッシュベース,ツリーベース,グラフベース,量子化ベースのアプローチを用いて,これらの研究を分類する。次に,既存のベクトルデータベースの課題について概説する。最後に,ベクトルデータベースを大規模言語モデルと組み合わせることで,新たな可能性を提供する。

関連論文リスト

Deep Research: A Systematic Survey [118.82795024422722]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文参考訳（メタデータ） (2025-11-24T15:28:28Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
Low-dimensional embeddings of high-dimensional data [35.01192808772252]
低次元埋め込みアルゴリズムは、データの可視化、探索、分析のための低次元表現、または埋め込みを生成する。多くの埋め込みアルゴリズムが開発され、研究や産業で広く使われている。このレビューは、最近の開発の概要を詳述し、低次元埋め込みの作成と利用のベストプラクティスのリストを作成し、さまざまなデータセットに対する一般的なアプローチを評価し、残りの課題と、この分野におけるオープンな問題について議論する。
論文参考訳（メタデータ） (2025-08-21T19:23:15Z)
From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文参考訳（メタデータ） (2025-06-23T17:27:19Z)
Towards Reliable Vector Database Management Systems: A Software Testing Roadmap for 2030 [7.711904628828539]
大規模言語モデル(LLM)とAI駆動アプリケーションにより、Vector Database Management Systems(VDBMS)が重要なインフラストラクチャコンポーネントとして注目を浴びている。 VDBMSは、高密度ベクトル埋め込みの保存、インデックス化、クエリを専門とし、検索強化生成、長期メモリ、キャッシュ機構などの高度なLLM機能を実現する。最適化された構造化データのための従来のデータベースとは異なり、VDBMSはベクトルデータの高次元の性質、ベクトル探索におけるファジィセマンティクス、動的データスケーリングとハイブリッドクエリ処理のサポートといったユニークなテスト課題に直面している。
論文参考訳（メタデータ） (2025-02-28T07:56:37Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
A Survey on Computational Solutions for Reconstructing Complete Objects by Reassembling Their Fractured Parts [25.59032022422813]
完全な対象をその部分から再構成することは、多くの科学領域における根本的な問題である。この文脈で既存のアルゴリズムを提供し、それらの類似点と汎用アプローチとの相違点を強調する。アルゴリズムに加えて、この調査では既存のデータセット、オープンソースソフトウェアパッケージ、アプリケーションについても記述する。
論文参考訳（メタデータ） (2024-10-18T17:53:07Z)
Dissecting embedding method: learning higher-order structures from data [0.0]
データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
論文参考訳（メタデータ） (2024-10-14T08:19:39Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models [0.0]
自然言語処理におけるオープンドメイン質問回答(ODQA)は,大規模知識コーパスを用いて,事実質問に回答するシステムを構築する。高品質なデータセットは、現実的なシナリオでモデルをトレーニングするために使用されます。標準化されたメトリクスは、異なるODQAシステム間の比較を容易にする。
論文参考訳（メタデータ） (2024-06-19T05:43:02Z)
Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文参考訳（メタデータ） (2024-05-13T14:44:22Z)
Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文参考訳（メタデータ） (2024-02-27T23:59:01Z)
Using text embedding models and vector databases as text classifiers with the example of medical data [0.0]
本稿では, 医学分野における例と応用例を用いて, テキストを符号化し, 分類する手段として, ベクトルデータベースと埋め込みモデルの利用について検討する。これらのツールの堅牢性は、提示されるデータの空間性に大きく依存していることを示し、ベクトルデータベース自体の低量のデータであっても、ベクトルデータベースはデータを分類するのに良い仕事をする。
論文参考訳（メタデータ） (2024-02-07T22:15:15Z)
Text2Analysis: A Benchmark of Table Question Answering with Advanced Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。 3つの異なる指標を用いて5つの最先端モデルを評価する。
論文参考訳（メタデータ） (2023-12-21T08:50:41Z)
Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors [58.340159346749964]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文参考訳（メタデータ） (2023-04-14T11:35:35Z)
Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文参考訳（メタデータ） (2022-11-15T19:42:27Z)
Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。 REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。 REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文参考訳（メタデータ） (2022-05-02T21:42:45Z)
Hierarchical Locality Sensitive Hashing for Structured Data: A Survey [8.045541999149002]
局所感性ハッシュ法 (LSH) は, 集合やベクトル間の類似度を正確に推定する手法として提案されている。本稿では,階層型LSHアルゴリズムの研究の現状について述べる。
論文参考訳（メタデータ） (2022-04-24T07:18:04Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Deep Image Retrieval: A Survey [21.209884703192735]
深層学習による画像検索に焦点をあて, 深層ネットワーク構造の種類に応じて, 最先端の手法を整理する。本調査は,カテゴリベースCBIR分野のグローバルな展望を促進することを目的とした,近年の多種多様な手法について考察する。
論文参考訳（メタデータ） (2021-01-27T09:32:58Z)
Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering [62.88322725956294]
OpenQAの最近の研究動向を概観し、特にニューラルMSC技術を導入したシステムに注目した。 Retriever-Reader' と呼ばれる最新の OpenQA アーキテクチャを導入し、このアーキテクチャに従うさまざまなシステムを分析します。次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。
論文参考訳（メタデータ） (2021-01-04T04:47:46Z)
Complex Coordinate-Based Meta-Analysis with Probabilistic Programming [0.0]
報告されたピークアクティベーションの座標と項関連を自動的に抽出することにより、コーディネートベースのメタアナリシス(CBMA)データベースを構築する。本稿では,近年,大規模なニューロイメージングデータに拡張可能なクエリ処理アルゴリズムについて述べる。シミュレーションされたメタアナリシスデータベースと広く使われているニューロシンスデータベースの両方において、2つの長期接続型クエリの結果を示す。
論文参考訳（メタデータ） (2020-12-02T16:16:26Z)
Characterizing Transactional Databases for Frequent Itemset Mining [0.0]
本稿では,頻繁なアイテムセット採掘に使用されるトランザクションデータベースの特性について述べる。提案するメトリクスリストには,文献で確認されている既存のメトリクスと,新たなメトリクスが含まれている。我々は,ベンチマークとして安全に使用可能な特徴量に基づいて,代表データセットのセットを提供する。
論文参考訳（メタデータ） (2020-11-09T12:26:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。