論文の概要: A Big Data Lake for Multilevel Streaming Analytics
- arxiv url: http://arxiv.org/abs/2009.12415v1
- Date: Fri, 25 Sep 2020 19:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:40:07.886647
- Title: A Big Data Lake for Multilevel Streaming Analytics
- Title(参考訳): マルチレベルストリーミング分析のためのビッグデータレイク
- Authors: Ruoran Liu, Haruna Isah, Farhana Zulkernine
- Abstract要約: 本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,多種多様なデータを生の形式で保存することに焦点を当てる。
データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。
データストリームの取り込み、ステージング、マルチレベルストリーミング分析のための実世界のデータレイク開発ユースケースを提案する。
- 参考スコア(独自算出の注目度): 0.4640835690336652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large organizations are seeking to create new architectures and scalable
platforms to effectively handle data management challenges due to the explosive
nature of data rarely seen in the past. These data management challenges are
largely posed by the availability of streaming data at high velocity from
various sources in multiple formats. The changes in data paradigm have led to
the emergence of new data analytics and management architecture. This paper
focuses on storing high volume, velocity and variety data in the raw formats in
a data storage architecture called a data lake. First, we present our study on
the limitations of traditional data warehouses in handling recent changes in
data paradigms. We discuss and compare different open source and commercial
platforms that can be used to develop a data lake. We then describe our
end-to-end data lake design and implementation approach using the Hadoop
Distributed File System (HDFS) on the Hadoop Data Platform (HDP). Finally, we
present a real-world data lake development use case for data stream ingestion,
staging, and multilevel streaming analytics which combines structured and
unstructured data. This study can serve as a guide for individuals or
organizations planning to implement a data lake solution for their use cases.
- Abstract(参考訳): 大規模組織は、過去にほとんど見られなかったデータの爆発的な性質のために、データ管理の課題を効果的に処理するための、新しいアーキテクチャとスケーラブルなプラットフォームを作ろうとしている。
これらのデータ管理の課題は、さまざまなソースから複数のフォーマットで高速にストリーミングデータを利用できることによる。
データパラダイムの変更は、新たなデータ分析と管理アーキテクチャの出現につながった。
本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,各種データを生の形式で保存することに焦点を当てる。
まず,近年のデータパラダイムの変化に対処する上で,従来のデータウェアハウスの限界について検討する。
データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。
次に、hadoop data platform(hdp)上のhadoop distributed file system(hdfs)を使用して、エンドツーエンドのデータレイク設計と実装アプローチを説明します。
最後に,構造化データと非構造化データを組み合わせたデータストリーム取り込み,ステージング,マルチレベルストリーミング分析のための実世界データレイク開発ユースケースを提案する。
この研究は、個人や組織がユースケースにデータレイクソリューションを実装するためのガイドとして役立てることができる。
関連論文リスト
- OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie [5.259526087073711]
我々はNessieと共にクラウドランタイムを活用することにより、計算とデータ管理を分離するように設計されたシステムを導入する。
オブジェクトストレージ上にタイムトラベラとブランチのセマンティクスを提供する機能を示し、CLIコマンドで完全なパイプラインを提供する。
論文 参考訳(メタデータ) (2024-04-21T14:53:33Z) - Empowering Data Mesh with Federated Learning [5.087058648342379]
新しいパラダイムであるData Meshは、中央チームから各データドメインにデータオーナシップを分散することで、ドメインを第一級の関心事として扱う。
Paypal、Netflix、Zalandoといった数十万ドルの企業はすでに、この新しいアーキテクチャに基づいてデータ分析パイプラインを変革している。
我々はフェデレートラーニングをData Meshに組み込む先駆的なアプローチを導入します。
論文 参考訳(メタデータ) (2024-03-26T17:10:15Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Federated Neural Graph Databases [53.03085605769093]
プライバシを保ちながらマルチソースグラフベースのデータの推論を可能にする新しいフレームワークであるFederated Neural Graph Database (FedNGDB)を提案する。
既存の方法とは異なり、FedNGDBは複雑なグラフ構造と関係を扱うことができ、様々な下流タスクに適合する。
論文 参考訳(メタデータ) (2024-02-22T14:57:44Z) - Semantic Data Management in Data Lakes [0.0]
近年では、現代のデータ分析のために大量の異種データを管理するために、データレイクが遠くに現れた。
データレイクが運用不能なデータ湿地になるのを防ぐ方法の1つは、セマンティックデータ管理である。
我々は,そのアプローチを (i) 基本的な意味データ管理, (ii) データレイクにおけるメタデータの充実のためのセマンティックモデリングアプローチ, (iii) オントロジーに基づくデータアクセスのための手法に分類する。
論文 参考訳(メタデータ) (2023-10-23T21:16:50Z) - Data Architecture for Digital Object Space Management Service (DOSM)
using DAT [1.8945921149936187]
この研究は、データの動き、データフォーマット、データ位置、データ処理(バッチまたはリアルタイム)、データストレージ技術、およびデータ上の主要な操作を記述することに焦点を当てている。
データアーキテクチャは、ソースから目的地へのデータフローを記述する複雑なタスクである。
論文 参考訳(メタデータ) (2023-06-22T14:22:56Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Deep Lake: a Lakehouse for Deep Learning [0.0]
Deep Lakeは、Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスである。
本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeについて述べる。
論文 参考訳(メタデータ) (2022-09-22T05:04:09Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。