論文の概要: SchemaDB: Structures in Relational Datasets
- arxiv url: http://arxiv.org/abs/2111.12835v1
- Date: Wed, 24 Nov 2021 23:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-05 03:23:14.746493
- Title: SchemaDB: Structures in Relational Datasets
- Title(参考訳): SchemaDB:リレーショナルデータセットの構造
- Authors: Cody James Christopher, Kristen Moore, David Liebowitz
- Abstract要約: 我々は、sqlとグラフ形式の両方で関係データベーススキーマのコレクションであるDBデータセットを紹介する。
収集・変換手法、要約統計、構造解析を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we introduce the SchemaDB data-set; a collection of relational
database schemata in both sql and graph formats. Databases are not commonly
shared publicly for reasons of privacy and security, so schemata are not
available for study. Consequently, an understanding of database structures in
the wild is lacking, and most examples found publicly belong to common
development frameworks or are derived from textbooks or engine benchmark
designs. SchemaDB contains 2,500 samples of relational schemata found in public
repositories which we have standardised to MySQL syntax. We provide our
gathering and transformation methodology, summary statistics, and structural
analysis, and discuss potential downstream research tasks in several domains.
- Abstract(参考訳): 本稿では、sqlおよびグラフ形式の関係データベーススキーマの集合であるSchemaDBデータセットを紹介する。
データベースは、プライバシとセキュリティのために一般に公開されていないため、スキーマは研究には利用できない。
その結果、データベース構造に関する理解が不足しており、ほとんどの例は公に共通開発フレームワークに属しているか、教科書やエンジンベンチマーク設計から派生している。
SchemaDBには公開リポジトリにある2500のリレーショナルスキーマのサンプルが含まれています。
我々は,収集・変換手法,要約統計,構造分析を行い,いくつかの分野における下流研究課題について考察する。
関連論文リスト
- CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL [47.14954737590405]
既存のテキストからテキストへのジェネレータでは、スキーマ全体をユーザテキストでエンコードする必要がある。
大規模な構造化データベースをサブセット化するのに、標準的な高密度検索技術は不十分である。
大規模データベース上でスキーマサブセットを作成するためのベンチマークを3つ導入する。
論文 参考訳(メタデータ) (2023-11-02T12:13:52Z) - Schema-adaptable Knowledge Graph Construction [47.772335354080795]
従来の知識グラフ構築(KGC)アプローチは、通常、事前定義されたスキーマの閉じたセットで静的情報抽出パラダイムに従う。
我々は,スキーマ適応型KGCと呼ばれる新しいタスクを提案する。このタスクは,動的に変化するスキーマグラフに基づいて,再学習せずにエンティティ,リレーション,イベントを継続的に抽出することを目的としている。
論文 参考訳(メタデータ) (2023-05-15T15:06:20Z) - Semantic Enhanced Text-to-SQL Parsing via Iteratively Learning Schema
Linking Graph [6.13728903057727]
新しいデータベースへの一般化性は、人間の発話を insql 文を解析することを目的とした Text-to- システムにとって極めて重要である。
本稿では,質問トークンとデータベーススキーマ間のセマンティックなスキーマリンクグラフを反復的に構築するIS ESLというフレームワークを提案する。
3つのベンチマークでの大規模な実験により、IS ESLはベースラインを一貫して上回り、さらなる調査ではその一般化可能性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-08-08T03:59:33Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - SADGA: Structure-Aware Dual Graph Aggregation Network for Text-to-SQL [29.328698264910596]
Text-to-Graphの最も難しい問題の1つは、トレーニングされたモデルを見えないデータベーススキーマに一般化する方法である。
クロスドメインテキスト・トゥ・グラフのための構造対応デュアルグラフアグリゲーションネットワーク(SADGA)を提案する。
執筆時点では、挑戦的なText-to-GraphベンチマークのSpiderで3位を獲得しました。
論文 参考訳(メタデータ) (2021-11-01T01:50:28Z) - ShadowGNN: Graph Projection Neural Network for Text-to-SQL Parser [36.12921337235763]
抽象レベルとセマンティックレベルでスキーマを処理する新しいアーキテクチャであるShadowGNNを提案します。
チャレンジングなText-to-Spiderベンチマークでは、経験的な結果がShadowGNNが最先端のモデルを上回ることを示しています。
論文 参考訳(メタデータ) (2021-04-10T05:48:28Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z) - Schema Extraction on Semi-structured Data [3.09315460664784]
木とグラフに基づく手法と、分散アーキテクチャとスキーマを抽出するための機械学習に基づく統計手法。
抽出ツールは、主にsparkやデータセットで使われ、小規模または単純なアプリケーション環境に適している。
システムは、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。
論文 参考訳(メタデータ) (2020-12-15T05:57:41Z) - IGSQL: Database Schema Interaction Graph Based Neural Model for
Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。
ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2020-11-11T12:56:21Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。