論文の概要: Cross Modal Data Discovery over Structured and Unstructured Data Lakes
- arxiv url: http://arxiv.org/abs/2306.00932v1
- Date: Thu, 1 Jun 2023 17:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:08:08.388751
- Title: Cross Modal Data Discovery over Structured and Unstructured Data Lakes
- Title(参考訳): 構造データ湖と非構造データ湖のクロスモーダルデータ発見
- Authors: Mohamed Y. Eltabakh, Mayuresh Kunjir, Ahmed Elmagarmid, Mohammad
Shahmeer Ahmad
- Abstract要約: 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなる集中型リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素を発見することを非常に困難にしている。
- 参考スコア(独自算出の注目度): 5.270224494298927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations are collecting increasingly large amounts of data for data
driven decision making. These data are often dumped into a centralized
repository, e.g., a data lake, consisting of thousands of structured and
unstructured datasets. Perversely, such mixture of datasets makes the problem
of discovering elements (e.g., tables or documents) that are relevant to a
user's query or an analytical task very challenging. Despite the recent efforts
in data discovery, the problem remains widely open especially in the two fronts
of (1) discovering relationships and relatedness across structured and
unstructured datasets where existing techniques suffer from either scalability,
being customized for a specific problem type (e.g., entity matching or data
integration), or demolishing the structural properties on its way, and (2)
developing a holistic system for integrating various similarity measurements
and sketches in an effective way to boost the discovery accuracy. In this
paper, we propose a new data discovery system, named CMDL, for addressing these
two limitations. CMDL supports the data discovery process over both structured
and unstructured data while retaining the structural properties of tables.
- Abstract(参考訳): 組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなるデータレイクなど、中央リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素(例えばテーブルやドキュメント)を発見することを非常に困難にしている。
Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy.
本稿では,この2つの制約に対処するための新しいデータディスカバリシステムcmdlを提案する。
CMDLは、テーブルの構造特性を維持しながら、構造化データと非構造化データの両方でデータ発見プロセスをサポートする。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study [4.742245127121496]
Structured-GraphRAGは自然言語クエリにおける構造化データセット間の情報検索を強化するために設計された汎用フレームワークである。
その結果,Structured-GraphRAGはクエリ処理効率を大幅に改善し,応答時間を短縮することがわかった。
論文 参考訳(メタデータ) (2024-09-26T06:53:29Z) - Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。
データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。
私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文 参考訳(メタデータ) (2024-08-11T13:58:31Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - Decoupled Subgraph Federated Learning [57.588938805581044]
複数のクライアントに分散したグラフ構造化データに対するフェデレーション学習の課題に対処する。
我々は、このシナリオのための新しいフレームワーク、FedStructを紹介します。
半教師付きノード分類のための6つのデータセットを用いて実験結果を用いてFedStructの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-29T13:47:23Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [4.508924138721326]
ヘテロジニアスデータセットの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-12-16T09:59:27Z) - Graph integration of structured, semistructured and unstructured data
for data journalism [0.0]
異種データソースの動的集合を統合するための完全なアプローチについて述べる。
提案手法はConnectionLensシステム内に実装されており,一連の実験を通じて検証する。
論文 参考訳(メタデータ) (2020-07-23T08:55:09Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。