論文の概要: Schema Extraction on Semi-structured Data
- arxiv url: http://arxiv.org/abs/2012.08105v1
- Date: Tue, 15 Dec 2020 05:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:15:21.964083
- Title: Schema Extraction on Semi-structured Data
- Title(参考訳): 半構造化データのスキーマ抽出
- Authors: Panpan Li, Yikun Gong, Chen Wang
- Abstract要約: 木とグラフに基づく手法と、分散アーキテクチャとスキーマを抽出するための機械学習に基づく統計手法。
抽出ツールは、主にsparkやデータセットで使われ、小規模または単純なアプリケーション環境に適している。
システムは、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。
- 参考スコア(独自算出の注目度): 3.09315460664784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous development of NoSQL databases, more and more developers
choose to use semi-structured data for development and data management, which
puts forward requirements for schema management of semi-structured data stored
in NoSQL databases. Schema extraction plays an important role in understanding
schemas, optimizing queries, and validating data consistency. Therefore, in
this survey we investigate structural methods based on tree and graph and
statistical methods based on distributed architecture and machine learning to
extract schemas. The schemas obtained by the structural methods are more
interpretable, and the statistical methods have better applicability and
generalization ability. Moreover, we also investigate tools and systems for
schemas extraction. Schema extraction tools are mainly used for spark or NoSQL
databases, and are suitable for small datasets or simple application
environments. The system mainly focuses on the extraction and management of
schemas in large data sets and complex application scenarios. Furthermore, we
also compare these techniques to facilitate data managers' choice.
- Abstract(参考訳): nosqlデータベースの継続的な開発により、開発とデータ管理に半構造化データを使用することがますます多くなり、nosqlデータベースに格納された半構造化データのスキーマ管理の要求が高まっている。
スキーマ抽出は、スキーマの理解、クエリの最適化、データの一貫性の検証において重要な役割を果たす。
そこで本研究では,木とグラフに基づく構造的手法と,分散アーキテクチャに基づく統計的手法とスキーマ抽出のための機械学習について検討する。
構造的手法により得られたスキーマはより解釈可能であり、統計的手法は適用性と一般化能力が向上する。
さらに,スキーマ抽出のためのツールやシステムについても検討する。
スキーマ抽出ツールは、主にスパークやNoSQLデータベースに使われ、小さなデータセットや単純なアプリケーション環境に適している。
システムは主に、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。
さらに,これらの手法を比較して,データマネージャの選択を促進する。
関連論文リスト
- FIPO: Free-form Instruction-oriented Prompt Optimization with Preference
Dataset and Modular Fine-tuning Schema [38.83502191683521]
プロンプトクラフトのテクニックは、平均的なユーザにとって重要な、かつ複雑なタスクとして現れます。
FIPO(Free-form Instruction-oriented Prompt Optimization)を提案する。
このアプローチは当社の大規模プロンプト選好データセットによってサポートされています。
論文 参考訳(メタデータ) (2024-02-19T03:56:44Z) - Computational Complexity of Preferred Subset Repairs on Data-Graphs [2.4186604326116874]
本稿では,標準サブセット修復セマンティクスに基づいて,重み,マルチセット,セットベースの優先度レベルを組み込んだ選好基準を提案する。
筆者らは最も一般的な補修作業について検討し、選好基準が適用できない場合と同様の計算複雑性を維持可能であることを示した。
論文 参考訳(メタデータ) (2024-02-14T15:51:55Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Schema-adaptable Knowledge Graph Construction [47.772335354080795]
従来の知識グラフ構築(KGC)アプローチは、通常、事前定義されたスキーマの閉じたセットで静的情報抽出パラダイムに従う。
我々は,スキーマ適応型KGCと呼ばれる新しいタスクを提案する。このタスクは,動的に変化するスキーマグラフに基づいて,再学習せずにエンティティ,リレーション,イベントを継続的に抽出することを目的としている。
論文 参考訳(メタデータ) (2023-05-15T15:06:20Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - SchemaDB: Structures in Relational Datasets [0.0]
我々は、sqlとグラフ形式の両方で関係データベーススキーマのコレクションであるDBデータセットを紹介する。
収集・変換手法、要約統計、構造解析を提供する。
論文 参考訳(メタデータ) (2021-11-24T23:06:02Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Automated Metadata Harmonization Using Entity Resolution & Contextual
Embedding [0.0]
我々は、Cogntive DatabaseのDb2Vec埋め込みアプローチの助けを借りて、このステップの自動化を実演する。
一致したスキーマとは別に、ターゲットデータモデルの正しい存在論的構造も推測できることを実証する。
論文 参考訳(メタデータ) (2020-10-17T02:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。