Fugu-MT 論文翻訳(概要): Understanding and Reusing Test Suites Across Database Systems

論文の概要: Understanding and Reusing Test Suites Across Database Systems

arxiv url: http://arxiv.org/abs/2410.21731v1
Date: Tue, 29 Oct 2024 04:36:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.70185
Title: Understanding and Reusing Test Suites Across Database Systems
Title（参考訳）: データベースシステム全体にわたるテストスイートの理解と再利用
Authors: Suyang Zhong, Manuel Rigger,
Abstract要約: データベース管理システム(DBMS)開発者は、システムをテストするために広範なテストスイートを実装している。これらの広範な努力にもかかわらず、テストスイートはシステム間で体系的に再利用されない。我々は,広く使用されている3つのシステムからテストケースを統合する統合テストスイート,SQuaLityを提案する。
参考スコア（独自算出の注目度）: 3.3302293148249125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Database Management System (DBMS) developers have implemented extensive test suites to test their DBMSs. For example, the SQLite test suites contain over 92 million lines of code. Despite these extensive efforts, test suites are not systematically reused across DBMSs, leading to wasted effort. Integration is challenging, as test suites use various test case formats and rely on unstandardized test runner features. We present a unified test suite, SQuaLity, in which we integrated test cases from three widely-used DBMSs, SQLite, PostgreSQL, and DuckDB. In addition, we present an empirical study to determine the potential of reusing these systems' test suites. Our results indicate that reusing test suites is challenging: First, test formats and test runner commands vary widely; for example, SQLite has 4 test runner commands, while MySQL has 112 commands with additional features, to, for example, execute file operations or interact with a shell. Second, while some test suites contain mostly standard-compliant statements (e.g., 99% in SQLite), other test suites mostly test non-standardized functionality (e.g., 31% of statements in the PostgreSQL test suite are nonstandardized). Third, test reuse is complicated by various explicit and implicit dependencies, such as the need to set variables and configurations, certain test cases requiring extensions not present by default, and query results depending on specific clients. Despite the above findings, we have identified 3 crashes, 3 hangs, and multiple compatibility issues across four different DBMSs by executing test suites across DBMSs, indicating the benefits of reuse. Overall, this work represents the first step towards test-case reuse in the context of DBMSs, and we hope that it will inspire follow-up work on this important topic.
Abstract（参考訳）: データベース管理システム(DBMS)開発者は、DBMSをテストするために広範なテストスイートを実装した。例えば、SQLiteテストスイートには9200万行以上のコードが含まれている。このような大規模な努力にもかかわらず、テストスイートはDBMS全体で体系的に再利用されないため、無駄な労力がかかる。テストスイートはさまざまなテストケースフォーマットを使用し、標準化されていないテストランナー機能に依存しているため、統合は難しい。私たちは、広く使われている3つのDBMS、SQLite、PostgreSQL、DuckDBからテストケースを統合する統合テストスイート、SQuaLityを紹介します。さらに,これらのテストスイートを再利用する可能性について,実証的研究を行った。例えば、SQLiteには4つのテストランナーコマンドがあり、MySQLには112のコマンドがあり、ファイル操作の実行やシェルとのインタラクションといった追加機能があります。第二に、いくつかのテストスイートは、主に標準準拠のステートメント(SQLiteの99%など)を含んでいるが、他のテストスイートは、主に非標準機能(PostgreSQLテストスイートのステートメントの31%は、非標準化されている)をテストしている。第三に、テストの再利用は、変数や設定の設定の必要性、デフォルトで存在しない拡張を必要とするテストケース、特定のクライアントによるクエリ結果など、さまざまな明示的で暗黙的な依存関係によって複雑である。以上の結果にもかかわらず、DBMS全体でテストスイートを実行することで、4つの異なるDBMSに対して3つのクラッシュ、3つのハング、3つの互換性の問題を特定し、再利用のメリットを示している。全体として、この作業はDBMSのコンテキストにおけるテストケースの再利用に向けた第一歩であり、この重要なトピックに対するフォローアップ作業に刺激を与えてくれることを期待しています。

関連論文リスト

Scaling Automated Database System Testing [3.3302293148249125]
我々は、Commonsqlの機能のサブセットをサポートするデータベースにテストオラクルを適用するビジョンとプラットフォームを提示する。本研究では,Commonsqlの機能サブセットをサポートするデータベースに対して,テストオーラクルを適用するためのビジョンとプラットフォームであるSQLancer++を提示する。
論文参考訳（メタデータ） (2025-03-27T12:10:36Z)
Parser Knows Best: Testing DBMS with Coverage-Guided Grammar-Rule Traversal [6.300885279363564]
本稿では,組込み構文の定義ファイル forsql 生成から文法規則を自動的に抽出するファジングフレームワーク Fuzz を提案する。 Fuzzはさまざまなクエリ文を生成して、テストの文法機能を飽和させる。評価では、Fuzzは、バグ発見、文法規則のカバレッジ、コードカバレッジという観点で、最先端の既存のテストツールをすべて上回っています。
論文参考訳（メタデータ） (2025-03-05T20:50:41Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。 Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。 Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文参考訳（メタデータ） (2024-11-12T12:52:17Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Testing Database Engines via Query Plan Guidance [6.789710498230718]
本稿では,自動テストの"興味深い"テストケースへの誘導を目的としたクエリプランガイダンス(QPG)の概念を提案する。我々は,成熟した,広く使用されている,多様なデータベースシステム –DBite,TiDB,Cockroach – に適用した。
論文参考訳（メタデータ） (2023-12-29T08:09:47Z)
Detecting DBMS Bugs with Context-Sensitive Instantiation and Multi-Plan Execution [11.18715154222032]
本稿では、テストケースで意味論的に正しいsqlクエリを生成する方法と、論理的バグをキャプチャする効果的なオーラクルを提案する方法を含む、この2つの課題を解決することを目的とする。我々はKangarooと呼ばれるプロトタイプシステムを実装し、広く使われている3つのセマンティックコードを適用した。我々のシステムと最先端システムを比較すると、生成した意味論的に有効なクエリの数、テスト中の探索されたコードパス、検出されたバグなどにおいて、システムの性能が優れていることが分かる。
論文参考訳（メタデータ） (2023-12-08T10:15:56Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
FlaPy: Mining Flaky Python Tests at Scale [14.609208863749831]
FlaPyは、研究者がテストスイートを再実行することによって、与えられた、あるいは自動的にサンプルされたPythonプロジェクトの集合で、不安定なテストをマイニングするためのフレームワークである。 FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートする。 FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストのフレキネスをスキャンすることができる。
論文参考訳（メタデータ） (2023-05-08T15:48:57Z)
Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文参考訳（メタデータ） (2023-05-04T19:02:29Z)
DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation [70.96868419971756]
DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
論文参考訳（メタデータ） (2022-11-18T17:20:27Z)
Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文参考訳（メタデータ） (2022-10-23T09:21:27Z)
Semantic Evaluation for Text-to-SQL with Distilled Test Suites [46.42548219378393]
テキスト・ツー・セマンティック・モデルの精度を近似するために,テストスイートの精度を提案する。我々は提案手法を用いて、スパイダーリーダーボードに提出された21のモデルを評価し、この手法が常に100の例で正しいことを手作業で検証する。
論文参考訳（メタデータ） (2020-10-06T16:04:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。