論文の概要: Schema Extraction on Semi-structured Data
- arxiv url: http://arxiv.org/abs/2012.08105v1
- Date: Tue, 15 Dec 2020 05:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:15:21.964083
- Title: Schema Extraction on Semi-structured Data
- Title(参考訳): 半構造化データのスキーマ抽出
- Authors: Panpan Li, Yikun Gong, Chen Wang
- Abstract要約: 木とグラフに基づく手法と、分散アーキテクチャとスキーマを抽出するための機械学習に基づく統計手法。
抽出ツールは、主にsparkやデータセットで使われ、小規模または単純なアプリケーション環境に適している。
システムは、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。
- 参考スコア(独自算出の注目度): 3.09315460664784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous development of NoSQL databases, more and more developers
choose to use semi-structured data for development and data management, which
puts forward requirements for schema management of semi-structured data stored
in NoSQL databases. Schema extraction plays an important role in understanding
schemas, optimizing queries, and validating data consistency. Therefore, in
this survey we investigate structural methods based on tree and graph and
statistical methods based on distributed architecture and machine learning to
extract schemas. The schemas obtained by the structural methods are more
interpretable, and the statistical methods have better applicability and
generalization ability. Moreover, we also investigate tools and systems for
schemas extraction. Schema extraction tools are mainly used for spark or NoSQL
databases, and are suitable for small datasets or simple application
environments. The system mainly focuses on the extraction and management of
schemas in large data sets and complex application scenarios. Furthermore, we
also compare these techniques to facilitate data managers' choice.
- Abstract(参考訳): nosqlデータベースの継続的な開発により、開発とデータ管理に半構造化データを使用することがますます多くなり、nosqlデータベースに格納された半構造化データのスキーマ管理の要求が高まっている。
スキーマ抽出は、スキーマの理解、クエリの最適化、データの一貫性の検証において重要な役割を果たす。
そこで本研究では,木とグラフに基づく構造的手法と,分散アーキテクチャに基づく統計的手法とスキーマ抽出のための機械学習について検討する。
構造的手法により得られたスキーマはより解釈可能であり、統計的手法は適用性と一般化能力が向上する。
さらに,スキーマ抽出のためのツールやシステムについても検討する。
スキーマ抽出ツールは、主にスパークやNoSQLデータベースに使われ、小さなデータセットや単純なアプリケーション環境に適している。
システムは主に、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。
さらに,これらの手法を比較して,データマネージャの選択を促進する。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study [4.742245127121496]
Structured-GraphRAGは自然言語クエリにおける構造化データセット間の情報検索を強化するために設計された汎用フレームワークである。
その結果,Structured-GraphRAGはクエリ処理効率を大幅に改善し,応答時間を短縮することがわかった。
論文 参考訳(メタデータ) (2024-09-26T06:53:29Z) - Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。
データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。
私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文 参考訳(メタデータ) (2024-08-11T13:58:31Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Powering In-Database Dynamic Model Slicing for Structured Data Analytics [31.360239181279525]
本稿では,指定されたsqlクエリのモデルをカスタマイズする新しい動的スライシング手法であるLEADSを紹介する。
LEADSは、専門家(MoE)の混合を通じて構造化データの予測モデリングを改善し、SQL対応ゲーティングネットワークによって効率を維持する。
実世界のデータセットに関する我々の実験は、LEADSがベースラインモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-05-01T15:18:12Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。