論文の概要: Cross Modal Data Discovery over Structured and Unstructured Data Lakes
- arxiv url: http://arxiv.org/abs/2306.00932v3
- Date: Sun, 16 Jul 2023 12:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 22:12:59.680969
- Title: Cross Modal Data Discovery over Structured and Unstructured Data Lakes
- Title(参考訳): 構造データ湖と非構造データ湖のクロスモーダルデータ発見
- Authors: Mohamed Y. Eltabakh, Mayuresh Kunjir, Ahmed Elmagarmid, Mohammad
Shahmeer Ahmad
- Abstract要約: 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなる集中型リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素を発見することを非常に困難にしている。
- 参考スコア(独自算出の注目度): 5.270224494298927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations are collecting increasingly large amounts of data for data
driven decision making. These data are often dumped into a centralized
repository, e.g., a data lake, consisting of thousands of structured and
unstructured datasets. Perversely, such mixture of datasets makes the problem
of discovering elements (e.g., tables or documents) that are relevant to a
user's query or an analytical task very challenging. Despite the recent efforts
in data discovery, the problem remains widely open especially in the two fronts
of (1) discovering relationships and relatedness across structured and
unstructured datasets where existing techniques suffer from either scalability,
being customized for a specific problem type (e.g., entity matching or data
integration), or demolishing the structural properties on its way, and (2)
developing a holistic system for integrating various similarity measurements
and sketches in an effective way to boost the discovery accuracy. In this
paper, we propose a new data discovery system, named CMDL, for addressing these
two limitations. CMDL supports the data discovery process over both structured
and unstructured data while retaining the structural properties of tables.
- Abstract(参考訳): 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなるデータレイクなど、中央リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素(例えばテーブルやドキュメント)を発見することを非常に困難にしている。
Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy.
本稿では,この2つの制約に対処するための新しいデータディスカバリシステムcmdlを提案する。
CMDLは、テーブルの構造特性を維持しながら、構造化データと非構造化データの両方でデータ発見プロセスをサポートする。
関連論文リスト
- FedStruct: Federated Decoupled Learning over Interconnected Graphs [60.9400186721042]
複数のクライアントに分散したグラフ構造化データに対するフェデレーション学習の課題に対処する。
我々は、このシナリオのための新しいフレームワーク、FedStructを紹介します。
半教師付きノード分類のための6つのデータセットを用いて実験結果を用いてFedStructの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-29T13:47:23Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Computational Complexity of Preferred Subset Repairs on Data-Graphs [2.4186604326116874]
本稿では,標準サブセット修復セマンティクスに基づいて,重み,マルチセット,セットベースの優先度レベルを組み込んだ選好基準を提案する。
筆者らは最も一般的な補修作業について検討し、選好基準が適用できない場合と同様の計算複雑性を維持可能であることを示した。
論文 参考訳(メタデータ) (2024-02-14T15:51:55Z) - Towards Causal Relationship in Indefinite Data: Baseline Model and New
Datasets [23.035761299444953]
「不確定データ」は多構造データと多値表現を特徴とする。
高品質なデータセットとして、CausalogueとCausactionの2つをリリースしています。
このギャップに3つの設計されたハイライトを取り入れた確率的フレームワークをベースラインとして提案する。
論文 参考訳(メタデータ) (2024-01-16T09:15:43Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [4.508924138721326]
ヘテロジニアスデータセットの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-12-16T09:59:27Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [0.0]
異種データソースの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-07-23T08:55:09Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。