論文の概要: A Big Data Lake for Multilevel Streaming Analytics
- arxiv url: http://arxiv.org/abs/2009.12415v1
- Date: Fri, 25 Sep 2020 19:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:40:07.886647
- Title: A Big Data Lake for Multilevel Streaming Analytics
- Title(参考訳): マルチレベルストリーミング分析のためのビッグデータレイク
- Authors: Ruoran Liu, Haruna Isah, Farhana Zulkernine
- Abstract要約: 本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,多種多様なデータを生の形式で保存することに焦点を当てる。
データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。
データストリームの取り込み、ステージング、マルチレベルストリーミング分析のための実世界のデータレイク開発ユースケースを提案する。
- 参考スコア(独自算出の注目度): 0.4640835690336652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large organizations are seeking to create new architectures and scalable
platforms to effectively handle data management challenges due to the explosive
nature of data rarely seen in the past. These data management challenges are
largely posed by the availability of streaming data at high velocity from
various sources in multiple formats. The changes in data paradigm have led to
the emergence of new data analytics and management architecture. This paper
focuses on storing high volume, velocity and variety data in the raw formats in
a data storage architecture called a data lake. First, we present our study on
the limitations of traditional data warehouses in handling recent changes in
data paradigms. We discuss and compare different open source and commercial
platforms that can be used to develop a data lake. We then describe our
end-to-end data lake design and implementation approach using the Hadoop
Distributed File System (HDFS) on the Hadoop Data Platform (HDP). Finally, we
present a real-world data lake development use case for data stream ingestion,
staging, and multilevel streaming analytics which combines structured and
unstructured data. This study can serve as a guide for individuals or
organizations planning to implement a data lake solution for their use cases.
- Abstract(参考訳): 大規模組織は、過去にほとんど見られなかったデータの爆発的な性質のために、データ管理の課題を効果的に処理するための、新しいアーキテクチャとスケーラブルなプラットフォームを作ろうとしている。
これらのデータ管理の課題は、さまざまなソースから複数のフォーマットで高速にストリーミングデータを利用できることによる。
データパラダイムの変更は、新たなデータ分析と管理アーキテクチャの出現につながった。
本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,各種データを生の形式で保存することに焦点を当てる。
まず,近年のデータパラダイムの変化に対処する上で,従来のデータウェアハウスの限界について検討する。
データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。
次に、hadoop data platform(hdp)上のhadoop distributed file system(hdfs)を使用して、エンドツーエンドのデータレイク設計と実装アプローチを説明します。
最後に,構造化データと非構造化データを組み合わせたデータストリーム取り込み,ステージング,マルチレベルストリーミング分析のための実世界データレイク開発ユースケースを提案する。
この研究は、個人や組織がユースケースにデータレイクソリューションを実装するためのガイドとして役立てることができる。
関連論文リスト
- An Integrated Data Processing Framework for Pretraining Foundation
Models [61.66552412677197]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Semantic Data Management in Data Lakes [0.0]
近年では、現代のデータ分析のために大量の異種データを管理するために、データレイクが遠くに現れた。
データレイクが運用不能なデータ湿地になるのを防ぐ方法の1つは、セマンティックデータ管理である。
我々は,そのアプローチを (i) 基本的な意味データ管理, (ii) データレイクにおけるメタデータの充実のためのセマンティックモデリングアプローチ, (iii) オントロジーに基づくデータアクセスのための手法に分類する。
論文 参考訳(メタデータ) (2023-10-23T21:16:50Z) - Data Architecture for Digital Object Space Management Service (DOSM)
using DAT [1.8945921149936187]
この研究は、データの動き、データフォーマット、データ位置、データ処理(バッチまたはリアルタイム)、データストレージ技術、およびデータ上の主要な操作を記述することに焦点を当てている。
データアーキテクチャは、ソースから目的地へのデータフローを記述する複雑なタスクである。
論文 参考訳(メタデータ) (2023-06-22T14:22:56Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Cross Modal Data Discovery over Structured and Unstructured Data Lakes [5.270224494298927]
組織はデータ駆動意思決定のために、ますます大量のデータを集めています。
これらのデータは、数千の構造化データセットと非構造化データセットからなる集中型リポジトリにダンプされることが多い。
逆に、そのようなデータセットの混合は、ユーザのクエリや分析タスクに関連する要素を発見することを非常に困難にしている。
論文 参考訳(メタデータ) (2023-06-01T17:34:42Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Deep Lake: a Lakehouse for Deep Learning [0.0]
Deep Lakeは、Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスである。
本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeについて述べる。
論文 参考訳(メタデータ) (2022-09-22T05:04:09Z) - A Multi-Format Transfer Learning Model for Event Argument Extraction via
Variational Information Bottleneck [68.61583160269664]
イベント引数抽出(EAE)は、テキストから所定の役割を持つ引数を抽出することを目的としている。
変動情報のボトルネックを考慮したマルチフォーマット変換学習モデルを提案する。
3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。
論文 参考訳(メタデータ) (2022-08-27T13:52:01Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。