Fugu-MT 論文翻訳(概要): Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems

論文の概要: Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems

arxiv url: http://arxiv.org/abs/2406.14545v2
Date: Thu, 17 Oct 2024 15:06:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.934109
Title: Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems
Title（参考訳）: Unmasking Database Vulnerabilities: テキストからSQLシステムへのゼロ知識スキーマ推論攻撃
Authors: Đorđe Klisura, Anthony Rios,
Abstract要約: 本稿では,データベースの事前知識を必要とせずに,テキストから生成モデルへの基盤となるデータベーススキーマを再構築するための新しいゼロ知識フレームワークを提案する。 F1スコアは生成モデルで最大.99、微調整モデルで最大.78である。本稿では、生成モデルに対する簡単な保護機構を提案し、これらの攻撃を緩和する際の限界を実証的に示す。
参考スコア（独自算出の注目度）: 7.613758211231583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-SQL systems empower users to interact with databases using natural language, automatically translating queries into executable SQL code. However, their reliance on database schema information for SQL generation exposes them to significant security vulnerabilities, particularly schema inference attacks that can lead to unauthorized data access or manipulation. In this paper, we introduce a novel zero-knowledge framework for reconstructing the underlying database schema of text-to-SQL models without any prior knowledge of the database. Our approach systematically probes text-to-SQL models with specially crafted questions and leverages a surrogate GPT-4 model to interpret the outputs, effectively uncovering hidden schema elements -- including tables, columns, and data types. We demonstrate that our method achieves high accuracy in reconstructing table names, with F1 scores of up to .99 for generative models and .78 for fine-tuned models, underscoring the severity of schema leakage risks. Furthermore, we propose a simple protection mechanism for generative models and empirically show its limitations in mitigating these attacks.
Abstract（参考訳）: テキストからSQLへのシステムは、自然言語を使ってデータベースと対話し、クエリを実行可能なSQLコードに自動的に翻訳することを可能にする。しかし、SQL生成のためのデータベーススキーマ情報への依存は、重大なセキュリティ上の脆弱性、特に不正なデータアクセスや操作につながる可能性のあるスキーマ推論攻撃を露呈する。本稿では,データベースの事前知識を必要とせずに,テキストからSQLモデルへのデータベーススキーマを再構築するための新しいゼロ知識フレームワークを提案する。我々のアプローチは、特別に構築された質問を含むテキストからSQLのモデルを体系的に探索し、サロゲートGPT-4モデルを利用して出力を解釈し、テーブル、列、データ型を含む隠れスキーマ要素を効果的に発見する。提案手法はテーブル名再構成において高い精度を達成し,F1スコアは生成モデルで最大.99,微調整モデルで最大.78であり,スキーマリークリスクの深刻さを裏付けるものである。さらに、生成モデルに対する簡単な保護機構を提案し、これらの攻撃を緩和する際の限界を実証的に示す。

関連論文リスト

ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement [57.98138819417949]
テキスト・ツー・クエリを明示的にモデル化するフレームワークであるErrorLLMを提案する。 ErrorLLMは、バックボーンの初期生成よりも大幅に改善されていることを示す。 ErrorLLMは、精錬効率を維持しつつ、高い検出F1スコアで両面に対処する。
論文参考訳（メタデータ） (2026-03-04T05:27:20Z)
Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
SPFT-SQL: Enhancing Large Language Model for Text-to-SQL Parsing by Self-Play Fine-Tuning [8.501743260277324]
セルフプレイファインチューニング(SPIN)は、弱い大きな言語モデル(LLM)を競合する相互作用を通じて強力な言語に変換することができる。本研究では,SPFT-tuningと呼ばれるテキスト・ツー・タスクに適した,新たなセルフプレイ・ファイン・チューニング手法を提案する。自己再生の微調整フェーズにおいて,不適切な出力を相手モデルからインセンティブを与える誤り駆動損失法を提案する。
論文参考訳（メタデータ） (2025-09-04T06:55:46Z)
UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文参考訳（メタデータ） (2025-05-23T17:28:43Z)
ToxicSQL: Migrating SQL Injection Threats into Text-to-SQL Models via Backdoor Attack [23.403724263002008]
セキュリティ上の懸念はほとんど未解決であり、特にバックドア攻撃の脅威である。 Toxicは、新しいバックドア攻撃フレームワークである。我々は、0.44%の有毒データを注入するだけで79.41%の攻撃成功率となり、データベースのセキュリティに重大なリスクが生じることを示した。
論文参考訳（メタデータ） (2025-03-07T14:16:48Z)
Enhancing SQL Injection Detection and Prevention Using Generative Models [4.424836140281847]
本稿では,SQLiの検出・防止機構を強化するために生成モデルを活用する革新的な手法を提案する。変分オートエンコーダ(VAE)、条件付きワッサースタインGAN、グラディエントペナルティ(CWGAN-GP)、U-Netを組み込むことで、機械学習モデルのトレーニングデータセットを増強するために合成sqlクエリが生成される。
論文参考訳（メタデータ） (2025-02-07T09:43:43Z)
RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文参考訳（メタデータ） (2024-10-31T16:22:26Z)
Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文参考訳（メタデータ） (2024-08-06T15:40:32Z)
TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。 2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文参考訳（メタデータ） (2024-03-23T16:12:52Z)
DBCopilot: Scaling Natural Language Querying to Massive Databases [47.009638761948466]
既存の方法は、大規模で動的に変化するデータベースを扱う際に、スケーラビリティの課題に直面します。本稿では,DBCopilotについて紹介する。DBCopilotは,大規模データベース間のルーティングにコンパクトで柔軟なコピロットモデルを用いるフレームワークである。
論文参考訳（メタデータ） (2023-12-06T12:37:28Z)
On the Security Vulnerabilities of Text-to-SQL Models [34.749129843281196]
6つの商用アプリケーション内のモジュールは悪意のあるコードを生成するために操作可能であることを示す。これはNLPモデルが野生の攻撃ベクトルとして活用できる最初の実演である。この研究の目的は、NLPアルゴリズムに関連する潜在的なソフトウェアセキュリティ問題にコミュニティの注意を向けることである。
論文参考訳（メタデータ） (2022-11-28T14:38:45Z)
Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-06-28T14:05:25Z)
UniSAr: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL [48.21638676148253]
We present UniSAr (Unified Structure-Aware Autoregressive Language Model), which is benefit of using a off-the-shelf language model。具体的には、UniSArは既存の自己回帰モデルを拡張して、3つの非侵襲的拡張を組み込んで構造認識する。
論文参考訳（メタデータ） (2022-03-15T11:02:55Z)
IGSQL: Database Schema Interaction Graph Based Neural Model for Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2020-11-11T12:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。