論文の概要: DIRT: Database-Integrated Random Testing
- arxiv url: http://arxiv.org/abs/2604.16373v1
- Date: Mon, 23 Mar 2026 18:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 07:08:44.220368
- Title: DIRT: Database-Integrated Random Testing
- Title(参考訳): DIRT: データベース集約型ランダムテスト
- Authors: Alperen Keles, Ethan Chou, Harrison Goldstein, Leonidas Lampropoulos,
- Abstract要約: DIRTは、開発中にデータベースをテストするために特別に設計されたパラダイムです。
我々は,Oエンジンのテストではなく,活発に開発されたTurso上でDIRTを評価する。
- 参考スコア(独自算出の注目度): 1.1024591739346294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Database management systems (DBMSs) are notoriously complex, making them difficult to test effectively, especially during early development when many features are incomplete. Traditional testing tools like SQLancer and SQLSmith are highly effective for mature databases, but they struggle with high false positive rates and low actionability when applied to evolving systems. We present DIRT, a paradigm designed specifically for testing databases during development, which integrates a testing framework directly into the DBMS, enabling the random testing process to evolve in tandem with the system and reducing false positives by construction. We introduce generation actions, an abstraction for allowing database developers rather than testing experts to specify correctness properties. We evaluate DIRT on Turso, an actively developed SQLite-compatible OLTP engine, and show that it finds 23 unique, confirmed bugs--significantly outperforming off-the-shelf SQLancer variants in terms of true positive rate and usefulness of bug reports. Our results demonstrate that embedding testing infrastructure within the DBMS can dramatically improve its effectiveness and usability during development.
- Abstract(参考訳): データベース管理システム(DBMS)は、非常に複雑で、特に多くの機能が不完全である初期の開発において、効果的にテストすることが困難である。
SQLancerやSQLSmithのような従来のテストツールは成熟したデータベースでは極めて効果的だが、進化するシステムに適用した場合、偽陽性率と低い動作性に悩まされる。
DIRTは、開発中にデータベースをテストするために特別に設計されたパラダイムであり、DBMSに直接テストフレームワークを統合することにより、ランダムなテストプロセスがシステムと連動して進化し、構築による偽陽性を減らすことができる。
我々は、専門家が正確性特性をテストするのではなく、データベース開発者を許容するための抽象化であるジェネレーションアクションを導入した。
我々は、活発に開発されたSQLite互換のOLTPエンジンであるTurso上でDIRTを評価し、23のユニークな、確認されたバグを発見した。
その結果,DBMS内にテストインフラストラクチャを組み込むことで,開発時の有効性とユーザビリティを劇的に向上させることができることがわかった。
関連論文リスト
- Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - BugForge: Constructing and Utilizing DBMS Bug Repository to Enhance DBMS Testing [26.533612973604804]
標準化されたバグリポジトリを構築するフレームワークであるBugForgeを提案する。
BugForgeはテストを強化するために高品質のテストケースを生成する。
リポジトリに基づいて、BugForgeは以前不明だった35のバグを発見し、22人の開発者が確認した。
論文 参考訳(メタデータ) (2026-04-03T13:13:53Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation [8.638974393417929]
State-of-the-the-art text-to-sql studyはBIRDデータセットに依存しており、証拠が質問と共に提供されると仮定している。
実世界のシナリオにおける性能向上と実用性向上のためのエビデンスを自動生成するSEEDを提案する。
論文 参考訳(メタデータ) (2025-06-09T04:44:31Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Constant Optimization Driven Database System Testing [6.246028398098516]
ロジックバグ(Logic bugs)とは、データベース管理システム(DBMS)が、与えられたクエリに対する誤った結果を静かに生成する可能性があるバグである。
我々は,データベースの論理バグを検出する新しいアプローチとして,定数最適化駆動型データベーステスト(CODDTest)を提案する。
論文 参考訳(メタデータ) (2025-01-20T03:32:55Z) - Finding Logic Bugs in Spatial Database Engines via Affine Equivalent Inputs [6.291508085458252]
空間データベース管理システム(SDBMS)は、空間データを保存、操作、検索することを目的としている。
SDBMSのロジックバグの存在は、誤った結果をもたらす可能性がある。
SDBMSのロジックバグの検出は、誤った結果を特定するための基礎的な真実が欠如しているため、難しい。
論文 参考訳(メタデータ) (2024-10-16T12:18:16Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。