論文の概要: Understanding and Reusing Test Suites Across Database Systems
- arxiv url: http://arxiv.org/abs/2410.21731v1
- Date: Tue, 29 Oct 2024 04:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:12.429202
- Title: Understanding and Reusing Test Suites Across Database Systems
- Title(参考訳): データベースシステム全体にわたるテストスイートの理解と再利用
- Authors: Suyang Zhong, Manuel Rigger,
- Abstract要約: データベース管理システム(DBMS)開発者は、システムをテストするために広範なテストスイートを実装している。
これらの広範な努力にもかかわらず、テストスイートはシステム間で体系的に再利用されない。
我々は,広く使用されている3つのシステムからテストケースを統合する統合テストスイート,SQuaLityを提案する。
- 参考スコア(独自算出の注目度): 3.3302293148249125
- License:
- Abstract: Database Management System (DBMS) developers have implemented extensive test suites to test their DBMSs. For example, the SQLite test suites contain over 92 million lines of code. Despite these extensive efforts, test suites are not systematically reused across DBMSs, leading to wasted effort. Integration is challenging, as test suites use various test case formats and rely on unstandardized test runner features. We present a unified test suite, SQuaLity, in which we integrated test cases from three widely-used DBMSs, SQLite, PostgreSQL, and DuckDB. In addition, we present an empirical study to determine the potential of reusing these systems' test suites. Our results indicate that reusing test suites is challenging: First, test formats and test runner commands vary widely; for example, SQLite has 4 test runner commands, while MySQL has 112 commands with additional features, to, for example, execute file operations or interact with a shell. Second, while some test suites contain mostly standard-compliant statements (e.g., 99% in SQLite), other test suites mostly test non-standardized functionality (e.g., 31% of statements in the PostgreSQL test suite are nonstandardized). Third, test reuse is complicated by various explicit and implicit dependencies, such as the need to set variables and configurations, certain test cases requiring extensions not present by default, and query results depending on specific clients. Despite the above findings, we have identified 3 crashes, 3 hangs, and multiple compatibility issues across four different DBMSs by executing test suites across DBMSs, indicating the benefits of reuse. Overall, this work represents the first step towards test-case reuse in the context of DBMSs, and we hope that it will inspire follow-up work on this important topic.
- Abstract(参考訳): データベース管理システム(DBMS)開発者は、DBMSをテストするために広範なテストスイートを実装した。
例えば、SQLiteテストスイートには9200万行以上のコードが含まれている。
このような大規模な努力にもかかわらず、テストスイートはDBMS全体で体系的に再利用されないため、無駄な労力がかかる。
テストスイートはさまざまなテストケースフォーマットを使用し、標準化されていないテストランナー機能に依存しているため、統合は難しい。
私たちは、広く使われている3つのDBMS、SQLite、PostgreSQL、DuckDBからテストケースを統合する統合テストスイート、SQuaLityを紹介します。
さらに,これらのテストスイートを再利用する可能性について,実証的研究を行った。
例えば、SQLiteには4つのテストランナーコマンドがあり、MySQLには112のコマンドがあり、ファイル操作の実行やシェルとのインタラクションといった追加機能があります。
第二に、いくつかのテストスイートは、主に標準準拠のステートメント(SQLiteの99%など)を含んでいるが、他のテストスイートは、主に非標準機能(PostgreSQLテストスイートのステートメントの31%は、非標準化されている)をテストしている。
第三に、テストの再利用は、変数や設定の設定の必要性、デフォルトで存在しない拡張を必要とするテストケース、特定のクライアントによるクエリ結果など、さまざまな明示的で暗黙的な依存関係によって複雑である。
以上の結果にもかかわらず、DBMS全体でテストスイートを実行することで、4つの異なるDBMSに対して3つのクラッシュ、3つのハング、3つの互換性の問題を特定し、再利用のメリットを示している。
全体として、この作業はDBMSのコンテキストにおけるテストケースの再利用に向けた第一歩であり、この重要なトピックに対するフォローアップ作業に刺激を与えてくれることを期待しています。
関連論文リスト
- TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Testing Database Engines via Query Plan Guidance [6.789710498230718]
本稿では,自動テストの"興味深い"テストケースへの誘導を目的としたクエリプランガイダンス(QPG)の概念を提案する。
我々は,成熟した,広く使用されている,多様なデータベースシステム –DBite,TiDB,Cockroach – に適用した。
論文 参考訳(メタデータ) (2023-12-29T08:09:47Z) - Detecting DBMS Bugs with Context-Sensitive Instantiation and Multi-Plan Execution [11.18715154222032]
本稿では、テストケースで意味論的に正しいsqlクエリを生成する方法と、論理的バグをキャプチャする効果的なオーラクルを提案する方法を含む、この2つの課題を解決することを目的とする。
我々はKangarooと呼ばれるプロトタイプシステムを実装し、広く使われている3つのセマンティックコードを適用した。
我々のシステムと最先端システムを比較すると、生成した意味論的に有効なクエリの数、テスト中の探索されたコードパス、検出されたバグなどにおいて、システムの性能が優れていることが分かる。
論文 参考訳(メタデータ) (2023-12-08T10:15:56Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - FlaPy: Mining Flaky Python Tests at Scale [14.609208863749831]
FlaPyは、研究者がテストスイートを再実行することによって、与えられた、あるいは自動的にサンプルされたPythonプロジェクトの集合で、不安定なテストをマイニングするためのフレームワークである。
FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートする。
FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストのフレキネスをスキャンすることができる。
論文 参考訳(メタデータ) (2023-05-08T15:48:57Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - DS-1000: A Natural and Reliable Benchmark for Data Science Code
Generation [70.96868419971756]
DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。
まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。
第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
論文 参考訳(メタデータ) (2022-11-18T17:20:27Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - Semantic Evaluation for Text-to-SQL with Distilled Test Suites [46.42548219378393]
テキスト・ツー・セマンティック・モデルの精度を近似するために,テストスイートの精度を提案する。
我々は提案手法を用いて、スパイダーリーダーボードに提出された21のモデルを評価し、この手法が常に100の例で正しいことを手作業で検証する。
論文 参考訳(メタデータ) (2020-10-06T16:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。