論文の概要: Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems
- arxiv url: http://arxiv.org/abs/2406.14545v1
- Date: Thu, 20 Jun 2024 17:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:23:24.016292
- Title: Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems
- Title(参考訳): Unmasking Database Vulnerabilities: テキストからSQLシステムへのゼロ知識スキーマ推論攻撃
- Authors: Đorđe Klisura, Anthony Rios,
- Abstract要約: 本研究は,テキスト生成モデルに基づくデータベーススキーマを抽出する。
データベース自体を知らずに様々なデータベース要素を探索するゼロ知識フレームワークを開発した。
- 参考スコア(独自算出の注目度): 7.613758211231583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relational databases are integral to modern information systems, serving as the foundation for storing, querying, and managing data efficiently and effectively. Advancements in large language modeling have led to the emergence of text-to-SQL technologies, significantly enhancing the querying and extracting of information from these databases and raising concerns about privacy and security. Our research extracts the database schema elements underlying a text-to-SQL model. Knowledge of the schema can make attacks such as SQL injection easier. By asking specially crafted questions, we have developed a zero-knowledge framework designed to probe various database schema elements without knowledge of the database itself. The text-to-SQL models then process these questions to produce an output that we use to uncover the structure of the database schema. We apply it to specialized text-to-SQL models fine-tuned on text-SQL pairs and generative language models used for SQL generation. Overall, we can reconstruct the table names with an F1 of nearly .75 for fine-tuned models and .96 for generative.
- Abstract(参考訳): リレーショナルデータベースは現代の情報システムに不可欠なものであり、データの保存、クエリ、管理の基盤となっている。
大規模言語モデリングの進歩により、テキストからSQLへの技術が出現し、これらのデータベースからのクエリと情報の抽出が大幅に向上し、プライバシとセキュリティに関する懸念が高まっている。
本研究は,テキスト-SQLモデルに基づくデータベーススキーマ要素を抽出する。
スキーマの知識により、SQLインジェクションのような攻撃が容易になる。
専門的な質問をすることで,データベース自体の知識を必要とせず,様々なデータベーススキーマ要素を探索するゼロ知識フレームワークを開発した。
次に、テキストからSQLまでのモデルがこれらの質問を処理して、データベーススキーマの構造を明らかにするために使用する出力を生成します。
テキスト-SQLペアとSQL生成に使用される生成言語モデルに基づいて微調整された特殊テキスト-SQLモデルに適用する。
全体としては、細調整されたモデルに .75 の F1 と生成に .96 の F1 で表名を再構築することができる。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - DBCopilot: Scaling Natural Language Querying to Massive Databases [47.009638761948466]
既存の方法は、大規模で動的に変化するデータベースを扱う際に、スケーラビリティの課題に直面します。
本稿では,DBCopilotについて紹介する。DBCopilotは,大規模データベース間のルーティングにコンパクトで柔軟なコピロットモデルを用いるフレームワークである。
論文 参考訳(メタデータ) (2023-12-06T12:37:28Z) - On the Security Vulnerabilities of Text-to-SQL Models [34.749129843281196]
6つの商用アプリケーション内のモジュールは悪意のあるコードを生成するために操作可能であることを示す。
これはNLPモデルが野生の攻撃ベクトルとして活用できる最初の実演である。
この研究の目的は、NLPアルゴリズムに関連する潜在的なソフトウェアセキュリティ問題にコミュニティの注意を向けることである。
論文 参考訳(メタデータ) (2022-11-28T14:38:45Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - UniSAr: A Unified Structure-Aware Autoregressive Language Model for
Text-to-SQL [48.21638676148253]
We present UniSAr (Unified Structure-Aware Autoregressive Language Model), which is benefit of using a off-the-shelf language model。
具体的には、UniSArは既存の自己回帰モデルを拡張して、3つの非侵襲的拡張を組み込んで構造認識する。
論文 参考訳(メタデータ) (2022-03-15T11:02:55Z) - IGSQL: Database Schema Interaction Graph Based Neural Model for
Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。
ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2020-11-11T12:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。