論文の概要: Enhanced Differential Testing in Emerging Database Systems
- arxiv url: http://arxiv.org/abs/2501.01236v1
- Date: Thu, 02 Jan 2025 12:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:02.808457
- Title: Enhanced Differential Testing in Emerging Database Systems
- Title(参考訳): 新しいデータベースシステムにおける微分テストの強化
- Authors: Yuancheng Jiang, Jianing Wang, Chuqi Zhang, Roland Yap, Zhenkai Liang, Manuel Rigger,
- Abstract要約: 本稿では,新たなデータベースシステムのバグを明らかにするために,改良された差分テストを提案する。
多くの新しいデータベースシステムは、概念的にはリレーショナルデータベースシステムの拡張である。
57の未知のバグがあり、うち17はロジックのバグで、40は内部エラーでした。
- 参考スコア(独自算出の注目度): 11.164715689334912
- License:
- Abstract: In recent years, a plethora of database management systems have surfaced to meet the demands of various scenarios. Emerging database systems, such as time-series and streaming database systems, are tailored to specific use cases requiring enhanced functionality and performance. However, as they are typically less mature, there can be bugs that either cause incorrect results or errors impacting reliability. To tackle this, we propose enhanced differential testing to uncover various bugs in emerging SQL-like database systems. The challenge is how to deal with differences of these emerging databases. Our insight is that many emerging database systems are conceptually extensions of relational database systems, making it possible to reveal logic bugs leveraging existing relational, known-reliable database systems. However, due to inevitable syntax or semantics gaps, it remains challenging to scale differential testing to various emerging database systems. We enhance differential testing for emerging database systems with three steps: (i) identifying shared clauses; (ii) extending shared clauses via mapping new features back to existing clauses of relational database systems; and (iii) generating differential inputs using extended shared clauses. We implemented our approach in a tool called SQLxDiff and applied it to four popular emerging database systems. In total, we found 57 unknown bugs, of which 17 were logic bugs and 40 were internal errors. Overall, vendors fixed 50 bugs and confirmed 5. Our results demonstrate the practicality and effectiveness of SQLxDiff in detecting bugs in emerging database systems, which has the potential to improve the reliability of their applications.
- Abstract(参考訳): 近年,様々なシナリオの要求に応えるために,データベース管理システムの多さが表面化している。
時系列やストリーミングデータベースのような新しいデータベースシステムは、機能強化とパフォーマンスを必要とする特定のユースケースに合わせて調整される。
しかしながら、一般的には成熟度が低いため、誤った結果や信頼性に影響を及ぼすエラーを引き起こすバグがある可能性がある。
そこで我々は,SQLライクなデータベースシステムにおける様々なバグを明らかにするために,改良された差分テストを提案する。
課題は、これらの新興データベースの違いにどのように対処するかだ。
我々の洞察では、多くの新興データベースシステムは概念的にはリレーショナルデータベースシステムの拡張であり、既存のリレーショナルで既知のデータベースシステムを利用した論理的バグを明らかにすることができる。
しかし、必然的な構文やセマンティクスのギャップのため、様々な新興データベースシステムに差分テストをスケールすることは依然として困難である。
3つのステップで新しいデータベースシステムの差分テストを強化します。
一 共有条項を識別すること。
(二 新機能を関係データベースシステムの既存の条項にマッピングして共有条項を拡張すること。)
三 拡張共有節を用いて差分入力を生成すること。
このアプローチをSQLxDiffというツールで実装し、4つの新興データベースシステムに適用しました。
合計して57の未知のバグが見つかり、うち17はロジックのバグで、40は内部エラーでした。
全体として、ベンダーは50のバグを修正し、5.5%のバグを確認した。
本研究は,新しいデータベースシステムにおけるバグ検出におけるSQLxDiffの実用性と有効性を示すものである。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Hybrid Querying Over Relational Databases and Large Language Models [8.926173054003547]
実世界の4つのデータベースに対する120以上の問合せを含む最初のクロスドメインベンチマークであるSWANを提示する。
1つはスキーマ拡張に基づくもので、もう1つはユーザ定義関数に基づくものである。
評価の結果,GPT-4Turboを数発のプロンプトで使用すれば,実行精度が40.0%,データ事実性が48.2%まで向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-01T19:29:18Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - An Empirical Study on the Characteristics of Database Access Bugs in Java Applications [5.844508449542756]
データベースを基盤とするアプリケーションはデータベースアクセスコードに依存し、基盤となるデータベース管理システム(DBMS)と相互作用する。
本稿では,7つの大規模Javaソースアプリケーションから収集した423のデータベースアクセスバグを実証的に調査する。
論文 参考訳(メタデータ) (2024-05-23T19:26:29Z) - Federated Neural Graph Databases [53.03085605769093]
プライバシを保ちながらマルチソースグラフベースのデータの推論を可能にする新しいフレームワークであるFederated Neural Graph Database (FedNGDB)を提案する。
既存の方法とは異なり、FedNGDBは複雑なグラフ構造と関係を扱うことができ、様々な下流タスクに適合する。
論文 参考訳(メタデータ) (2024-02-22T14:57:44Z) - Testing Database Engines via Query Plan Guidance [6.789710498230718]
本稿では,自動テストの"興味深い"テストケースへの誘導を目的としたクエリプランガイダンス(QPG)の概念を提案する。
我々は,成熟した,広く使用されている,多様なデータベースシステム –DBite,TiDB,Cockroach – に適用した。
論文 参考訳(メタデータ) (2023-12-29T08:09:47Z) - Detecting DBMS Bugs with Context-Sensitive Instantiation and Multi-Plan Execution [11.18715154222032]
本稿では、テストケースで意味論的に正しいsqlクエリを生成する方法と、論理的バグをキャプチャする効果的なオーラクルを提案する方法を含む、この2つの課題を解決することを目的とする。
我々はKangarooと呼ばれるプロトタイプシステムを実装し、広く使われている3つのセマンティックコードを適用した。
我々のシステムと最先端システムを比較すると、生成した意味論的に有効なクエリの数、テスト中の探索されたコードパス、検出されたバグなどにおいて、システムの性能が優れていることが分かる。
論文 参考訳(メタデータ) (2023-12-08T10:15:56Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching [23.52046767195031]
半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。
クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。
提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
論文 参考訳(メタデータ) (2022-02-23T05:32:34Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。