論文の概要: Semantic Data Management in Data Lakes
- arxiv url: http://arxiv.org/abs/2310.15373v1
- Date: Mon, 23 Oct 2023 21:16:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:30:31.990026
- Title: Semantic Data Management in Data Lakes
- Title(参考訳): データレイクにおけるセマンティックデータ管理
- Authors: Sayed Hoseini, Johannes Theissen-Lipp, Christoph Quix
- Abstract要約: 近年では、現代のデータ分析のために大量の異種データを管理するために、データレイクが遠くに現れた。
データレイクが運用不能なデータ湿地になるのを防ぐ方法の1つは、セマンティックデータ管理である。
我々は,そのアプローチを (i) 基本的な意味データ管理, (ii) データレイクにおけるメタデータの充実のためのセマンティックモデリングアプローチ, (iii) オントロジーに基づくデータアクセスのための手法に分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, data lakes emerged as away to manage large amounts of
heterogeneous data for modern data analytics. One way to prevent data lakes
from turning into inoperable data swamps is semantic data management. Some
approaches propose the linkage of metadata to knowledge graphs based on the
Linked Data principles to provide more meaning and semantics to the data in the
lake. Such a semantic layer may be utilized not only for data management but
also to tackle the problem of data integration from heterogeneous sources, in
order to make data access more expressive and interoperable. In this survey, we
review recent approaches with a specific focus on the application within data
lake systems and scalability to Big Data. We classify the approaches into (i)
basic semantic data management, (ii) semantic modeling approaches for enriching
metadata in data lakes, and (iii) methods for ontologybased data access. In
each category, we cover the main techniques and their background, and compare
latest research. Finally, we point out challenges for future work in this
research area, which needs a closer integration of Big Data and Semantic Web
technologies.
- Abstract(参考訳): 近年、現代のデータ分析のために大量の異種データを管理するために、データレイクが登場した。
データレイクが運用不能なデータ沼になるのを防ぐ方法のひとつは、セマンティックデータ管理である。
いくつかのアプローチでは、湖内のデータに対してより意味と意味を提供するために、Linked Data原則に基づいた知識グラフへのメタデータのリンクを提案する。
このようなセマンティクスレイヤは、データ管理だけでなく、異種ソースからのデータ統合の問題にも対処して、データアクセスをより表現豊かで相互運用可能なものにすることもできる。
本調査では,データレイクシステム内のアプリケーションとビッグデータのスケーラビリティに着目した最近のアプローチについて概説する。
私たちはアプローチを分類します
(i)基本的な意味的データ管理
(ii)データレイクにおけるメタデータ強化のための意味モデリング手法
(iii)オントロジベースのデータアクセス方法。
各カテゴリにおいて、主要な技術とその背景をカバーし、最新の研究と比較する。
最後に、ビッグデータとセマンティックweb技術のより緊密な統合を必要とするこの研究分野における今後の取り組みの課題を指摘する。
関連論文リスト
- Retrieve, Merge, Predict: Augmenting Tables with Data Lakes [0.0]
結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
データレイクとして、論文ではYADL(Yet Another Data Lake)と、よく参照された実際のデータレイクであるOpen Data USを使用している。
論文 参考訳(メタデータ) (2024-02-09T09:48:38Z) - Data Optimization in Deep Learning: A Survey [3.1274367448459253]
本研究の目的は,ディープラーニングのための様々なデータ最適化手法を整理することである。
構築された分類学は分割次元の多様性を考慮し、各次元に深いサブタコノミが構築される。
構築された分類学と明らかにされた接続は、既存の手法のより良い理解と、新しいデータ最適化手法の設計を啓蒙する。
論文 参考訳(メタデータ) (2023-10-25T09:33:57Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Self-supervised similarity models based on well-logging data [1.0723143072368782]
油田の異なる問題に対する解に適した普遍的なデータ表現を提供する手法を提案する。
当社のアプローチは,間隔の連続的なログデータに対する自己管理手法に依拠している。
変動型オートエンコーダを用いることで、最も信頼性が高く正確なモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-09-26T06:24:08Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - A Big Data Lake for Multilevel Streaming Analytics [0.4640835690336652]
本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,多種多様なデータを生の形式で保存することに焦点を当てる。
データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。
データストリームの取り込み、ステージング、マルチレベルストリーミング分析のための実世界のデータレイク開発ユースケースを提案する。
論文 参考訳(メタデータ) (2020-09-25T19:57:21Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。