論文の概要: Deep Lake: a Lakehouse for Deep Learning
- arxiv url: http://arxiv.org/abs/2209.10785v1
- Date: Thu, 22 Sep 2022 05:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:59:14.427191
- Title: Deep Lake: a Lakehouse for Deep Learning
- Title(参考訳): Deep Lake:ディープラーニングのためのレイクハウス
- Authors: Sasun Hambardzumyan, Abhinav Tuli, Levon Ghukasyan, Fariz Rahman,
Hrant Topchyan, David Isayan, Mikayel Harutyunyan, Tatevik Hakobyan, Ivo
Stranic, Davit Buniatyan
- Abstract要約: Deep Lakeは、Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスである。
本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional data lakes provide critical data infrastructure for analytical
workloads by enabling time travel, running SQL queries, ingesting data with
ACID transactions, and visualizing petabyte-scale datasets on cloud storage.
They allow organizations to break down data silos, unlock data-driven
decision-making, improve operational efficiency, and reduce costs. However, as
deep learning takes over common analytical workflows, traditional data lakes
become less useful for applications such as natural language processing (NLP),
audio processing, computer vision, and applications involving non-tabular
datasets. This paper presents Deep Lake, an open-source lakehouse for deep
learning applications developed at Activeloop. Deep Lake maintains the benefits
of a vanilla data lake with one key difference: it stores complex data, such as
images, videos, annotations, as well as tabular data, in the form of tensors
and rapidly streams the data over the network to (a) Tensor Query Language, (b)
in-browser visualization engine, or (c) deep learning frameworks without
sacrificing GPU utilization. Datasets stored in Deep Lake can be accessed from
PyTorch, TensorFlow, JAX, and integrate with numerous MLOps tools.
- Abstract(参考訳): 従来のデータレイクは、時間旅行、SQLクエリの実行、ACIDトランザクションによるデータの取り込み、クラウドストレージ上のペタバイト規模のデータセットの可視化を可能にする、分析ワークロードのための重要なデータインフラストラクチャを提供する。
これにより、データサイロを分解し、データ駆動による意思決定をアンロックし、運用効率を向上し、コストを削減できる。
しかし、ディープラーニングが一般的な分析ワークフローを引き継ぐにつれ、自然言語処理(NLP)、オーディオ処理、コンピュータビジョン、非タブラルデータセットを含むアプリケーションでは、従来のデータレイクは役に立たない。
本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeを紹介する。
deep lakeは、画像、ビデオ、アノテーションなどの複雑なデータを表データだけでなく、テンソル形式で保存し、ネットワーク越しに高速にデータをストリームする。
(a)テンソルクエリ言語。
(b)ブラウザ内可視化エンジン又は
(c)GPU利用を犠牲にすることなく、ディープラーニングフレームワーク。
Deep Lakeに格納されているデータセットは、PyTorch、TensorFlow、JAXからアクセスでき、多数のMLOpsツールと統合できる。
関連論文リスト
- Retrieve, Merge, Predict: Augmenting Tables with Data Lakes [0.0]
結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。
データレイクとして、論文ではYADL(Yet Another Data Lake)と、よく参照された実際のデータレイクであるOpen Data USを使用している。
論文 参考訳(メタデータ) (2024-02-09T09:48:38Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Semantic Data Management in Data Lakes [0.0]
近年では、現代のデータ分析のために大量の異種データを管理するために、データレイクが遠くに現れた。
データレイクが運用不能なデータ湿地になるのを防ぐ方法の1つは、セマンティックデータ管理である。
我々は,そのアプローチを (i) 基本的な意味データ管理, (ii) データレイクにおけるメタデータの充実のためのセマンティックモデリングアプローチ, (iii) オントロジーに基づくデータアクセスのための手法に分類する。
論文 参考訳(メタデータ) (2023-10-23T21:16:50Z) - TensorBank:Tensor Lakehouse for Foundation Model Training [1.9891608247681292]
基礎モデルトレーニングのための高次元データのストリーミングと保存は、自然言語を超えた基礎モデルの台頭によって重要な要件となった。
我々は、複雑なリレーショナルクエリに基づいて、Cloud Object Store(COS)からGPUメモリへテンソルをワイヤスピードでストリーミングできるペタバイトスケールテンソルレイクハウスであるBankを紹介した。
このアーキテクチャは、コンピュータビジョン、計算神経科学、生物学的シーケンス分析などの他のユースケースに一般化される。
論文 参考訳(メタデータ) (2023-09-05T10:00:33Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.06289658553675]
転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。
Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。
NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。
SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
論文 参考訳(メタデータ) (2022-06-19T12:07:32Z) - OpTorch: Optimized deep learning architectures for resource limited
environments [1.5736899098702972]
時間や記憶など多面的に最適化された深層学習パイプラインを提案します。
OpTorchは、ニューラルネットワークトレーニングの既存の実装の弱点を克服するために設計された機械学習ライブラリである。
論文 参考訳(メタデータ) (2021-05-03T03:58:57Z) - A Big Data Lake for Multilevel Streaming Analytics [0.4640835690336652]
本稿では,データレイクと呼ばれるデータストレージアーキテクチャにおいて,高ボリューム,速度,多種多様なデータを生の形式で保存することに焦点を当てる。
データレイクの開発に使用できるさまざまなオープンソースと商用プラットフォームについて議論し、比較する。
データストリームの取り込み、ステージング、マルチレベルストリーミング分析のための実世界のデータレイク開発ユースケースを提案する。
論文 参考訳(メタデータ) (2020-09-25T19:57:21Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。