Fugu-MT 論文翻訳(概要): Schema Extraction on Semi-structured Data

論文の概要: Schema Extraction on Semi-structured Data

arxiv url: http://arxiv.org/abs/2012.08105v1
Date: Tue, 15 Dec 2020 05:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 05:15:21.964083
Title: Schema Extraction on Semi-structured Data
Title（参考訳）: 半構造化データのスキーマ抽出
Authors: Panpan Li, Yikun Gong, Chen Wang
Abstract要約: 木とグラフに基づく手法と、分散アーキテクチャとスキーマを抽出するための機械学習に基づく統計手法。抽出ツールは、主にsparkやデータセットで使われ、小規模または単純なアプリケーション環境に適している。システムは、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。
参考スコア（独自算出の注目度）: 3.09315460664784
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the continuous development of NoSQL databases, more and more developers choose to use semi-structured data for development and data management, which puts forward requirements for schema management of semi-structured data stored in NoSQL databases. Schema extraction plays an important role in understanding schemas, optimizing queries, and validating data consistency. Therefore, in this survey we investigate structural methods based on tree and graph and statistical methods based on distributed architecture and machine learning to extract schemas. The schemas obtained by the structural methods are more interpretable, and the statistical methods have better applicability and generalization ability. Moreover, we also investigate tools and systems for schemas extraction. Schema extraction tools are mainly used for spark or NoSQL databases, and are suitable for small datasets or simple application environments. The system mainly focuses on the extraction and management of schemas in large data sets and complex application scenarios. Furthermore, we also compare these techniques to facilitate data managers' choice.
Abstract（参考訳）: nosqlデータベースの継続的な開発により、開発とデータ管理に半構造化データを使用することがますます多くなり、nosqlデータベースに格納された半構造化データのスキーマ管理の要求が高まっている。スキーマ抽出は、スキーマの理解、クエリの最適化、データの一貫性の検証において重要な役割を果たす。そこで本研究では,木とグラフに基づく構造的手法と,分散アーキテクチャに基づく統計的手法とスキーマ抽出のための機械学習について検討する。構造的手法により得られたスキーマはより解釈可能であり、統計的手法は適用性と一般化能力が向上する。さらに,スキーマ抽出のためのツールやシステムについても検討する。スキーマ抽出ツールは、主にスパークやNoSQLデータベースに使われ、小さなデータセットや単純なアプリケーション環境に適している。システムは主に、大規模なデータセットと複雑なアプリケーションシナリオにおけるスキーマの抽出と管理に焦点を当てている。さらに,これらの手法を比較して,データマネージャの選択を促進する。

関連論文リスト

Relational Database Distillation: From Structured Tables to Condensed Graph Data [48.347717300340435]
グラフベースモデルに必要な電力を維持しつつ,大規模RDBをコンパクトなヘテロジニアスグラフに蒸留することを目的としている。さらに、擬似ラベルを用いてカーネルリッジ回帰誘導目標を設計し、蒸留グラフの品質特性を創出する。
論文参考訳（メタデータ） (2025-10-08T13:05:31Z)
A Pre-training Framework for Relational Data with Information-theoretic Principles [57.93973948947743]
本稿では,リレーショナルグラフ上の集合に基づくアグリゲーションを通じて,監視信号を構成する新しい事前学習フレームワークであるTask Vector Estimation (TVE)を紹介する。 TVEは従来のトレーニング前のベースラインを一貫して上回っている。本研究は,関係データベース上での予測モデルの設計原則として,タスクの不均一性と時間構造を符号化する事前学習目的を提唱する。
論文参考訳（メタデータ） (2025-07-14T00:17:21Z)
Relational Deep Learning: Challenges, Foundations and Next-Generation Architectures [50.46688111973999]
グラフ機械学習は、任意のグラフ構造化データで学習するモデルの能力を大幅に向上させた。従来の工学的特徴を伴わない'関係エンティティグラフ'のエンドツーエンド表現を可能にする新しい青写真を提案する。本稿では、大規模マルチテーブル統合や、時間力学と異種データのモデリングの複雑さなど、重要な課題について論じる。
論文参考訳（メタデータ） (2025-06-19T23:51:38Z)
Schema as Parameterized Tools for Universal Information Extraction [27.4621163733051]
ユニバーサル情報抽出(UIE)は、主に大言語モデル(LLM)を用いた抽出生成手法を用いる。構造化IEツール(SPT)と呼ばれる適応型テキスト・構造生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-02T03:12:44Z)
SchemaGraphSQL: Efficient Schema Linking with Pathfinding Graph Algorithms for Text-to-SQL on Large-Scale Databases [1.6544167074080365]
本稿では、まず、外部キー関係に基づくスキーマグラフを構築する、ゼロショットでトレーニング不要なスキーマリンク手法を提案する。我々は、結合すべきテーブルや列の最適なシーケンスを特定するために、古典的なパスフィニングアルゴリズムと後処理を適用する。提案手法はBIRDベンチマークの最先端結果を実現し,従来の特殊化,微調整,複雑な多段階LCMに基づくアプローチよりも優れていた。
論文参考訳（メタデータ） (2025-05-23T20:42:36Z)
WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos [48.88393315169039]
協調学習(CL)技術により、複数のパーティが生データを共有せずにモデルを共同でトレーニングできる。現在のCLベンチマークとアルゴリズムは、主に、分離、アライメント、結合可能なデータベースの仮定の下で学習ステップを目標としています。我々は1700万の重み付きエッジでリンクされた10万の現実世界のリレーショナルデータベースから構築された大規模なデータセットを構築した。
論文参考訳（メタデータ） (2025-05-22T13:07:06Z)
Beyond Quacking: Deep Integration of Language Models and RAG into DuckDB [44.057784044659726]
大規模言語モデル(LLM)により、このような検索と推論データパイプラインのプロトタイプがより簡単になった。これはしばしば、データシステムのオーケストレーション、データムーブメントの管理、低レベルの詳細処理を含む。我々はFlockMTLを紹介した。FlockMTLはLLM機能と検索拡張生成を深く統合した抽象化用拡張である。
論文参考訳（メタデータ） (2025-04-01T19:48:17Z)
SchemaAgent: A Multi-Agents Framework for Generating Relational Database Schema [35.57815867567431]
既存の取り組みは主に、カスタマイズされたルールや従来のディープラーニングモデルに基づいており、しばしばリレーショナルスキーマを生成する。高品質データベーススキーマの自動生成のための統一LLMベースのマルチエージェントフレームワークを提案する。我々は、様々な段階にわたる問題の正当性を特定するために、リフレクションとインスペクションのための専用の役割と、革新的なエラー検出と修正機構を組み込んだ。
論文参考訳（メタデータ） (2025-03-31T09:39:19Z)
Space of Data through the Lens of Multilevel Graph [0.0]
この研究は、新しいデータ構造を導入することで、データ空間の本質的な複雑さに取り組むことを目指している。本稿では,そのトポロジの縮小と拡張という,2つの基本的な操作を備えたマルチレベルグラフの概念を提案する。我々は、このグラフ構造を操作するための包括的な方法スイートを提供し、データ分析のための堅牢なフレームワークを確立します。
論文参考訳（メタデータ） (2025-03-30T21:54:07Z)
Towards Agentic Schema Refinement [3.7173623393215287]
本稿では,データベースとユーザ間のセマンティックレイヤを,小さくて分かりやすいデータベースビューの集合として提案する。弊社のアプローチは、LLMによる不安定なデータベースの探索の道を開くものだ。
論文参考訳（メタデータ） (2024-11-25T19:57:16Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study [4.742245127121496]
Structured-GraphRAGは自然言語クエリにおける構造化データセット間の情報検索を強化するために設計された汎用フレームワークである。その結果,Structured-GraphRAGはクエリ処理効率を大幅に改善し,応答時間を短縮することがわかった。
論文参考訳（メタデータ） (2024-09-26T06:53:29Z)
Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文参考訳（メタデータ） (2024-08-11T13:58:31Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Powering In-Database Dynamic Model Slicing for Structured Data Analytics [31.360239181279525]
本稿では,指定されたsqlクエリのモデルをカスタマイズする新しい動的スライシング手法であるLEADSを紹介する。 LEADSは、専門家(MoE)の混合を通じて構造化データの予測モデリングを改善し、SQL対応ゲーティングネットワークによって効率を維持する。実世界のデータセットに関する我々の実験は、LEADSがベースラインモデルより一貫して優れていることを示した。
論文参考訳（メタデータ） (2024-05-01T15:18:12Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。 UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文参考訳（メタデータ） (2022-12-20T09:15:03Z)
Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-06-28T14:05:25Z)
CateCom: a practical data-centric approach to categorization of computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文参考訳（メタデータ） (2021-09-28T02:59:40Z)
Procedures as Programs: Hierarchical Control of Situated Agents through Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。 NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文参考訳（メタデータ） (2021-09-16T20:36:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。