論文の概要: Delta Tensor: Efficient Vector and Tensor Storage in Delta Lake
- arxiv url: http://arxiv.org/abs/2405.03708v1
- Date: Fri, 3 May 2024 21:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 18:34:09.564441
- Title: Delta Tensor: Efficient Vector and Tensor Storage in Delta Lake
- Title(参考訳): デルタ・テンソル(Delta Tensor) - デルタ湖の効率的なベクトル・テンソル・ストレージ
- Authors: Zhiwei Bao, Liu Liao-Liao, Zhiyu Wu, Yifan Zhou, Dan Fan, Michal Aibin, Yvonne Coady,
- Abstract要約: 本稿では,デルタ湖を用いたレイクハウス建築におけるテンソル貯蔵の新しい手法を提案する。
実験により、このアプローチは空間と時間効率の両方において顕著に改善されていることが示された。
- 参考スコア(独自算出の注目度): 3.447690809365798
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The exponential growth of artificial intelligence (AI) and machine learning (ML) applications has necessitated the development of efficient storage solutions for vector and tensor data. This paper presents a novel approach for tensor storage in a Lakehouse architecture using Delta Lake. By adopting the multidimensional array storage strategy from array databases and sparse encoding methods to Delta Lake tables, experiments show that this approach has demonstrated notable improvements in both space and time efficiencies when compared to traditional serialization of tensors. These results provide valuable insights for the development and implementation of optimized vector and tensor storage solutions in data-intensive applications, contributing to the evolution of efficient data management practices in AI and ML domains in cloud-native environments
- Abstract(参考訳): 人工知能(AI)と機械学習(ML)のアプリケーションの指数関数的成長は、ベクトルデータとテンソルデータのための効率的なストレージソリューションの開発を必要としている。
本稿では,デルタ湖を用いたレイクハウス建築におけるテンソル貯蔵の新しい手法を提案する。
アレイデータベースからの多次元配列記憶戦略とスパース符号化手法をデルタレイクテーブルに適用することにより、従来のテンソルのシリアライゼーションと比較して、この手法は空間および時間効率の両方において顕著に改善されていることを示す。
これらの結果は、データ集約型アプリケーションにおける最適化ベクターおよびテンソルストレージソリューションの開発と実装のための貴重な洞察を与え、クラウドネイティブ環境におけるAIおよびMLドメインにおける効率的なデータ管理プラクティスの進化に寄与する。
関連論文リスト
- Bullion: A Column Store for Machine Learning [4.096087402737292]
Bullionは、機械学習ワークロードに適した列指向ストレージシステムである。
データコンプライアンスの複雑さに対処し、長いシーケンススパース機能の符号化を最適化し、拡張可能なプロジェクションを効率的に管理し、ストレージに機能量子化を導入する。
論文 参考訳(メタデータ) (2024-04-13T05:01:54Z) - Dimensionality Reduction in Sentence Transformer Vector Databases with Fast Fourier Transform [0.0]
ベクトルデータベースの次元性低減は、AIデータ管理の合理化に重要である。
本稿では,ベクトルデータベースの次元を減らし,計算効率を重視し,次元の呪いを克服する利点について考察する。
本稿では,Fast Fourier Transform (FFT) の次元化への応用について紹介する。
論文 参考訳(メタデータ) (2024-04-09T13:02:22Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - PG-LBO: Enhancing High-Dimensional Bayesian Optimization with
Pseudo-Label and Gaussian Process Guidance [31.585328335396607]
現在の主流の手法は、ラベルのないデータのプールを利用して潜在空間を構築する可能性を見落としている。
ラベル付きデータのガイダンスを用いてラベル付きデータを効果的に活用するための新しい手法を提案する。
提案手法は,様々な最適化シナリオにおいて,既存のVAE-BOアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-28T11:57:58Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Optimization of a Hydrodynamic Computational Reservoir through Evolution [58.720142291102135]
我々は,スタートアップが開発中の流体力学系のモデルと,計算貯水池としてインターフェースする。
我々は、進化探索アルゴリズムを用いて、読み出し時間と入力を波の振幅や周波数にどのようにマッピングするかを最適化した。
この貯水池システムに進化的手法を適用することで、手作業パラメータを用いた実装と比較して、XNORタスクの分離性が大幅に向上した。
論文 参考訳(メタデータ) (2023-04-20T19:15:02Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators
using Reinforcement Learning [5.251940442946459]
本研究では、与えられたモデルとデータフロースタイルに対して最適化されたHWリソース割り当てを見つけるために、ConfuciuXと呼ばれる自律的戦略を提案する。
最適化されたハードウェア構成4.7から24倍の速度で収束する。
論文 参考訳(メタデータ) (2020-09-04T04:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。