論文の概要: Automated Discovery of Test Oracles for Database Management Systems Using LLMs
- arxiv url: http://arxiv.org/abs/2510.06663v1
- Date: Wed, 08 Oct 2025 05:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.317075
- Title: Automated Discovery of Test Oracles for Database Management Systems Using LLMs
- Title(参考訳): LLMを用いたデータベース管理システムのためのテストオラクルの自動発見
- Authors: Qiuyang Mang, Runyuan He, Suyang Zhong, Xiaoxuan Liu, Huanchen Zhang, Alvin Cheung,
- Abstract要約: 本稿では,大規模な言語モデル(LLM)を用いて,テストオラクルの発見とインスタンス化を自動化する方法について検討する。
LLMは、多数の偽陽性バグレポートを生成する幻覚を起こす傾向がある。
ArgusはConstrained Abstract Queryの中核的な概念に基づいて構築された新しいフレームワークです。
- 参考スコア(独自算出の注目度): 13.143749352093474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since 2020, automated testing for Database Management Systems (DBMSs) has flourished, uncovering hundreds of bugs in widely-used systems. A cornerstone of these techniques is test oracle, which typically implements a mechanism to generate equivalent query pairs, thereby identifying bugs by checking the consistency between their results. However, while applying these oracles can be automated, their design remains a fundamentally manual endeavor. This paper explores the use of large language models (LLMs) to automate the discovery and instantiation of test oracles, addressing a long-standing bottleneck towards fully automated DBMS testing. Although LLMs demonstrate impressive creativity, they are prone to hallucinations that can produce numerous false positive bug reports. Furthermore, their significant monetary cost and latency mean that LLM invocations should be limited to ensure that bug detection is efficient and economical. To this end, we introduce Argus, a novel framework built upon the core concept of the Constrained Abstract Query - a SQL skeleton containing placeholders and their associated instantiation conditions (e.g., requiring a placeholder to be filled by a boolean column). Argus uses LLMs to generate pairs of these skeletons that are asserted to be semantically equivalent. This equivalence is then formally proven using a SQL equivalence solver to ensure soundness. Finally, the placeholders within the verified skeletons are instantiated with concrete, reusable SQL snippets that are also synthesized by LLMs to efficiently produce complex test cases. We implemented Argus and evaluated it on five extensively tested DBMSs, discovering 40 previously unknown bugs, 35 of which are logic bugs, with 36 confirmed and 26 already fixed by the developers.
- Abstract(参考訳): 2020年以降、データベース管理システム(DBMS)の自動テストが盛んになり、広く使用されているシステムに数百のバグが発見された。
これらのテクニックの基盤はテストオラクルであり、通常は同等のクエリペアを生成するメカニズムを実装し、結果間の一貫性をチェックしてバグを特定する。
しかしながら、これらのオラクルを適用することは自動化できるが、設計は基本的には手作業である。
本稿では, 大規模言語モデル(LLM)を用いて, オーラクルの発見とインスタンス化を自動化し, 完全自動DBMSテストへの長年のボトルネックに対処する。
LLMは素晴らしい創造性を示しているが、多くの偽陽性のバグレポートを生成する幻覚を起こす傾向がある。
さらに、その重要な金銭的コストと遅延は、バグ検出が効率的かつ経済的であることを保証するために、LSMの呼び出しを制限すべきであることを意味する。
この目的のためにArgusを紹介します。Constrained Abstract Query - プレースホルダーと関連するインスタンス条件(例えば、プレースホルダーをブールカラムで満たさなければならない)を含むSQLスケルトンです。
ArgusはLSMを使用して、意味論的に等価であると主張されるこれらの骨格のペアを生成する。
この等価性は、音質を保証するためにSQL同値解法を用いて正式に証明される。
最後に、検証されたスケルトン内のプレースホルダーは、LLMによって合成された具体的で再利用可能なSQLスニペットでインスタンス化され、複雑なテストケースを効率的に生成する。
私たちはArgusを実装し、それを5つの広範囲にテストされたDBMSで評価し、40の既知のバグを発見しました。
関連論文リスト
- LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation [2.794277194464204]
ユニットテストは、ソフトウェアの正しさを保証する上で重要な役割を担います。
従来の手法は、高いコードカバレッジを達成するために、検索ベースまたはランダム化アルゴリズムに依存していた。
CANDORはJavaにおける自動単体テスト生成のための新しいプロンプトエンジニアリングベースのLLMフレームワークである。
論文 参考訳(メタデータ) (2025-06-03T14:43:05Z) - Testing Database Systems with Large Language Model Synthesized Fragments [3.3302293148249125]
既存のsqlテストケースジェネレータをLLM(Large Language Models)を利用して拡張するアプローチであるShQveLを提案する。
我々はShQveLを5回の反復で評価し、55のユニークな、以前は未知のバグを発見しました。
論文 参考訳(メタデータ) (2025-05-04T06:48:01Z) - Scaling Automated Database System Testing [3.3302293148249125]
我々は、Commonsqlの機能のサブセットをサポートするデータベースにテストオラクルを適用するビジョンとプラットフォームを提示する。
本研究では,Commonsqlの機能サブセットをサポートするデータベースに対して,テストオーラクルを適用するためのビジョンとプラットフォームであるSQLancer++を提示する。
論文 参考訳(メタデータ) (2025-03-27T12:10:36Z) - Can the Rookies Cut the Tough Cookie? Exploring the Use of LLMs for SQL Equivalence Checking [15.42143912008553]
クエリ等価性チェックのためのSQLEquiQuestという,新しい,現実的で,十分に複雑なベンチマークを導入する。
我々は,様々なプロンプト戦略とテキスト内学習例を用いて,最先端のLLMを評価した。
解析の結果,LLMは等価性予測に強いバイアスを示し,非等価性対に対する性能は一貫して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-12-07T06:50:12Z) - Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文 参考訳(メタデータ) (2024-05-21T13:19:10Z) - ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。
既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。
我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。