Fugu-MT 論文翻訳(概要): Towards Reliable Vector Database Management Systems: A Software Testing Roadmap for 2030

論文の概要: Towards Reliable Vector Database Management Systems: A Software Testing Roadmap for 2030

arxiv url: http://arxiv.org/abs/2502.20812v1
Date: Fri, 28 Feb 2025 07:56:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.726984
Title: Towards Reliable Vector Database Management Systems: A Software Testing Roadmap for 2030
Title（参考訳）: 信頼性の高いベクトルデータベース管理システムを目指して - 2030年のソフトウェアテストロードマップ
Authors: Shenao Wang, Yanjie Zhao, Yinglin Xie, Zhao Liu, Xinyi Hou, Quanchen Zou, Haoyu Wang,
Abstract要約: 大規模言語モデル(LLM)とAI駆動アプリケーションにより、Vector Database Management Systems(VDBMS)が重要なインフラストラクチャコンポーネントとして注目を浴びている。 VDBMSは、高密度ベクトル埋め込みの保存、インデックス化、クエリを専門とし、検索強化生成、長期メモリ、キャッシュ機構などの高度なLLM機能を実現する。最適化された構造化データのための従来のデータベースとは異なり、VDBMSはベクトルデータの高次元の性質、ベクトル探索におけるファジィセマンティクス、動的データスケーリングとハイブリッドクエリ処理のサポートといったユニークなテスト課題に直面している。
参考スコア（独自算出の注目度）: 7.711904628828539
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid growth of Large Language Models (LLMs) and AI-driven applications has propelled Vector Database Management Systems (VDBMSs) into the spotlight as a critical infrastructure component. VDBMS specializes in storing, indexing, and querying dense vector embeddings, enabling advanced LLM capabilities such as retrieval-augmented generation, long-term memory, and caching mechanisms. However, the explosive adoption of VDBMS has outpaced the development of rigorous software testing methodologies tailored for these emerging systems. Unlike traditional databases optimized for structured data, VDBMS face unique testing challenges stemming from the high-dimensional nature of vector data, the fuzzy semantics in vector search, and the need to support dynamic data scaling and hybrid query processing. In this paper, we begin by conducting an empirical study of VDBMS defects and identify key challenges in test input generation, oracle definition, and test evaluation. Drawing from these insights, we propose the first comprehensive research roadmap for developing effective testing methodologies tailored to VDBMS. By addressing these challenges, the software testing community can contribute to the development of more reliable and trustworthy VDBMS, enabling the full potential of LLMs and data-intensive AI applications.
Abstract（参考訳）: 大規模言語モデル(LLM)とAI駆動アプリケーションの急速な成長により、Vector Database Management Systems(VDBMS)は重要なインフラストラクチャコンポーネントとして注目を浴びている。 VDBMSは、高密度ベクトル埋め込みの保存、インデックス化、クエリを専門とし、検索強化生成、長期メモリ、キャッシュ機構などの高度なLLM機能を実現する。しかしながら、VDBMSの爆発的な採用は、これらの新興システムに適した厳格なソフトウェアテスティング手法の開発を上回っている。構造化データに最適化された従来のデータベースとは異なり、VDBMSはベクトルデータの高次元の性質、ベクトル探索におけるファジィセマンティクス、動的データスケーリングとハイブリッドクエリ処理のサポートといったユニークなテスト課題に直面している。本稿では,VDBMSの欠陥を実証研究し,テスト入力生成,オラクル定義,テスト評価における重要な課題を特定することから始める。これらの知見から,VDBMSに適合した効果的なテスト手法を開発するための,初の総合的な研究ロードマップを提案する。これらの課題に対処することによって、ソフトウェアテストコミュニティは、より信頼性が高く信頼性の高いVDBMSの開発に貢献することができる。

関連論文リスト

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead [15.43943391801509]
単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
論文参考訳（メタデータ） (2025-11-26T13:30:11Z)
A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文参考訳（メタデータ） (2025-10-10T06:56:50Z)
LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文参考訳（メタデータ） (2025-09-30T22:34:23Z)
Multimodal Data Storage and Retrieval for Embodied AI: A Survey [8.079598907674903]
EAI(Embodied AI)エージェントは物理的世界と相互作用し、巨大で異質なマルチモーダルデータストリームを生成する。 EAIの中核となる要件は、物理的グラウンディング、低レイテンシアクセス、動的スケーラビリティである。私たちの調査は180以上の関連する研究の包括的なレビューに基づいており、堅牢で高性能なデータ管理フレームワークを設計するための厳密なロードマップを提供しています。
論文参考訳（メタデータ） (2025-08-19T15:04:02Z)
A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。 LLMは3つのコア特徴によって特徴づけられる。本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文参考訳（メタデータ） (2025-07-31T18:17:36Z)
VerilogDB: The Largest, Highest-Quality Dataset with a Preprocessing Framework for LLM-based RTL Generation [1.0798445660490976]
大規模言語モデル(LLM)は、特にレジスタ転送レベル(RTL)コード生成を通じて、ハードウェア設計自動化において人気が高まっている。データベース(DB)の作成と管理を含む3段階の自動化プロセスを通じて,ロバストなVerilogデータセットを構築した。得られたデータセットは、20,392のVerilogサンプルと751MBのVerilogコードデータからなる。
論文参考訳（メタデータ） (2025-07-09T17:06:54Z)
Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文参考訳（メタデータ） (2025-06-22T16:52:48Z)
Toward Understanding Bugs in Vector Database Management Systems [11.916195480211648]
ベクトルデータベース管理システム(VDBMS)は,多様なデータソースからの高次元埋め込みのセマンティックな類似性検索を容易にする上で,重要な役割を担っている。従来のデータベース信頼性モデルは、データ表現、クエリ機構、システムアーキテクチャに根本的な違いがあるため、VDBMSに直接適用することはできない。我々は15のオープンソースVDBMSから1,671件のバグ修正プルリクエストを手動で分析し、症状、根本原因、開発者修正戦略に基づいたバグの包括的な分類法を開発した。
論文参考訳（メタデータ） (2025-06-03T08:34:01Z)
Simplifying Data Integration: SLM-Driven Systems for Unified Semantic Queries Across Heterogeneous Databases [0.0]
本稿では,Small Language Model(SLM)をベースとした,軽量な検索・拡張生成(RAG)とセマンティック・アウェアなデータ構造化の進歩を相乗化するシステムを提案する。 SLMを用いた構造化データ抽出にMiniRAGのセマンティック・アウェア・ヘテロジニアス・グラフインデックスとトポロジ・エンハンス・検索を統合し,従来の手法の限界に対処する。実験結果は精度と効率性において優れた性能を示し、教師なし評価指標としてのセマンティックエントロピーの導入はモデルの不確実性に対する堅牢な洞察を提供する。
論文参考訳（メタデータ） (2025-04-08T03:28:03Z)
Beyond Quacking: Deep Integration of Language Models and RAG into DuckDB [44.057784044659726]
大規模言語モデル(LLM)により、このような検索と推論データパイプラインのプロトタイプがより簡単になった。これはしばしば、データシステムのオーケストレーション、データムーブメントの管理、低レベルの詳細処理を含む。我々はFlockMTLを紹介した。FlockMTLはLLM機能と検索拡張生成を深く統合した抽象化用拡張である。
論文参考訳（メタデータ） (2025-04-01T19:48:17Z)
GUI Agents with Foundation Models: A Comprehensive Survey [91.97447457550703]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。重要な課題を特定し,今後の研究方向性を提案する。この調査が(M)LLMベースのGUIエージェントの分野におけるさらなる進歩を促すことを願っている。
論文参考訳（メタデータ） (2024-11-07T17:28:10Z)
Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。 RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文参考訳（メタデータ） (2024-10-21T12:21:49Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Code-Survey: An LLM-Driven Methodology for Analyzing Large-Scale Codebases [3.8153349016958074]
我々は,大規模規模の探索と解析を目的とした最初のLCM駆動型手法であるCode-Surveyを紹介した。調査を慎重に設計することで、Code-Surveyはコミット、Eメールなどの構造化されていないデータを、構造化、構造化、分析可能なデータセットに変換する。これにより、複雑なソフトウェアの進化を定量的に分析し、設計、実装、保守、信頼性、セキュリティに関する貴重な洞察を明らかにすることができる。
論文参考訳（メタデータ） (2024-09-24T17:08:29Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
When Large Language Models Meet Vector Databases: A Survey [0.0]
VecDBは、LLM操作に固有の高次元ベクトル表現を保存、検索、管理するための効率的な手段を提供する。 VecDBは、LLM操作に固有の高次元ベクトル表現を保存、取得、管理する効率的な手段を提供することによって、これらの問題の魅力的な解決策として浮上する。本調査は、高度なデータ処理と知識抽出機能のためのLLMとVecDBの合流点の最適化に関するさらなる研究を触媒することを目的としている。
論文参考訳（メタデータ） (2024-01-30T23:35:28Z)
A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge [37.634442415396634]
ベクトルデータベース(VDB)は、従来のデータベース管理システムの能力を超える高次元データを管理する。 VDBは現在、大規模な言語モデルと密に統合されており、現代の人工知能システムにも広く適用されている。
論文参考訳（メタデータ） (2023-10-18T04:31:06Z)
LLM As DBA [25.92711955279298]
大規模言語モデル(LLM)は、価値あるドキュメントを理解し、合理的な回答を生成する大きな可能性を示している。本稿では,文書やツールからのデータベース保守知識の検出,根本原因分析のための思考のツリー,および (iii)複数のLCM間の協調診断を含む,データベース保守のための革命的LLM中心のフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-10T10:12:43Z)
Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文参考訳（メタデータ） (2023-06-20T14:21:58Z)
Data Mining with Big Data in Intrusion Detection Systems: A Systematic Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文参考訳（メタデータ） (2020-05-23T20:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。