論文の概要: Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems
- arxiv url: http://arxiv.org/abs/2406.14545v2
- Date: Thu, 17 Oct 2024 15:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:32.573050
- Title: Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems
- Title(参考訳): Unmasking Database Vulnerabilities: テキストからSQLシステムへのゼロ知識スキーマ推論攻撃
- Authors: Đorđe Klisura, Anthony Rios,
- Abstract要約: 本稿では,データベースの事前知識を必要とせずに,テキストから生成モデルへの基盤となるデータベーススキーマを再構築するための新しいゼロ知識フレームワークを提案する。
F1スコアは生成モデルで最大.99、微調整モデルで最大.78である。
本稿では、生成モデルに対する簡単な保護機構を提案し、これらの攻撃を緩和する際の限界を実証的に示す。
- 参考スコア(独自算出の注目度): 7.613758211231583
- License:
- Abstract: Text-to-SQL systems empower users to interact with databases using natural language, automatically translating queries into executable SQL code. However, their reliance on database schema information for SQL generation exposes them to significant security vulnerabilities, particularly schema inference attacks that can lead to unauthorized data access or manipulation. In this paper, we introduce a novel zero-knowledge framework for reconstructing the underlying database schema of text-to-SQL models without any prior knowledge of the database. Our approach systematically probes text-to-SQL models with specially crafted questions and leverages a surrogate GPT-4 model to interpret the outputs, effectively uncovering hidden schema elements -- including tables, columns, and data types. We demonstrate that our method achieves high accuracy in reconstructing table names, with F1 scores of up to .99 for generative models and .78 for fine-tuned models, underscoring the severity of schema leakage risks. Furthermore, we propose a simple protection mechanism for generative models and empirically show its limitations in mitigating these attacks.
- Abstract(参考訳): テキストからSQLへのシステムは、自然言語を使ってデータベースと対話し、クエリを実行可能なSQLコードに自動的に翻訳することを可能にする。
しかし、SQL生成のためのデータベーススキーマ情報への依存は、重大なセキュリティ上の脆弱性、特に不正なデータアクセスや操作につながる可能性のあるスキーマ推論攻撃を露呈する。
本稿では,データベースの事前知識を必要とせずに,テキストからSQLモデルへのデータベーススキーマを再構築するための新しいゼロ知識フレームワークを提案する。
我々のアプローチは、特別に構築された質問を含むテキストからSQLのモデルを体系的に探索し、サロゲートGPT-4モデルを利用して出力を解釈し、テーブル、列、データ型を含む隠れスキーマ要素を効果的に発見する。
提案手法はテーブル名再構成において高い精度を達成し,F1スコアは生成モデルで最大.99,微調整モデルで最大.78であり,スキーマリークリスクの深刻さを裏付けるものである。
さらに、生成モデルに対する簡単な保護機構を提案し、これらの攻撃を緩和する際の限界を実証的に示す。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - DBCopilot: Scaling Natural Language Querying to Massive Databases [47.009638761948466]
既存の方法は、大規模で動的に変化するデータベースを扱う際に、スケーラビリティの課題に直面します。
本稿では,DBCopilotについて紹介する。DBCopilotは,大規模データベース間のルーティングにコンパクトで柔軟なコピロットモデルを用いるフレームワークである。
論文 参考訳(メタデータ) (2023-12-06T12:37:28Z) - On the Security Vulnerabilities of Text-to-SQL Models [34.749129843281196]
6つの商用アプリケーション内のモジュールは悪意のあるコードを生成するために操作可能であることを示す。
これはNLPモデルが野生の攻撃ベクトルとして活用できる最初の実演である。
この研究の目的は、NLPアルゴリズムに関連する潜在的なソフトウェアセキュリティ問題にコミュニティの注意を向けることである。
論文 参考訳(メタデータ) (2022-11-28T14:38:45Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - UniSAr: A Unified Structure-Aware Autoregressive Language Model for
Text-to-SQL [48.21638676148253]
We present UniSAr (Unified Structure-Aware Autoregressive Language Model), which is benefit of using a off-the-shelf language model。
具体的には、UniSArは既存の自己回帰モデルを拡張して、3つの非侵襲的拡張を組み込んで構造認識する。
論文 参考訳(メタデータ) (2022-03-15T11:02:55Z) - IGSQL: Database Schema Interaction Graph Based Neural Model for
Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。
ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2020-11-11T12:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。