論文の概要: TensorBank: Tensor Lakehouse for Foundation Model Training
- arxiv url: http://arxiv.org/abs/2309.02094v3
- Date: Thu, 21 Mar 2024 09:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 20:19:41.798315
- Title: TensorBank: Tensor Lakehouse for Foundation Model Training
- Title(参考訳): TensorBank: モデルトレーニングのためのTensor Lakehouse
- Authors: Romeo Kienzler, Leonardo Pondian Tizzei, Benedikt Blumenstiel, Zoltan Arnold Nagy, S. Karthik Mukkavilli, Johannes Schmude, Marcus Freitag, Michael Behrendt, Daniel Salles Civitarese, Naomi Simumba, Daiki Kimura, Hendrik Hamann,
- Abstract要約: 基礎モデルトレーニングのための高次元データのストリーミングと保存は、自然言語を超えた基礎モデルの台頭によって重要な要件となった。
我々は、複雑なリレーショナルクエリに基づいて、Cloud Object Store(COS)からGPUメモリへテンソルをワイヤスピードでストリーミングできるペタバイトスケールテンソルレイクハウスであるBankを紹介した。
このアーキテクチャは、コンピュータビジョン、計算神経科学、生物学的シーケンス分析などの他のユースケースに一般化される。
- 参考スコア(独自算出の注目度): 1.8811254972035676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Storing and streaming high dimensional data for foundation model training became a critical requirement with the rise of foundation models beyond natural language. In this paper we introduce TensorBank, a petabyte scale tensor lakehouse capable of streaming tensors from Cloud Object Store (COS) to GPU memory at wire speed based on complex relational queries. We use Hierarchical Statistical Indices (HSI) for query acceleration. Our architecture allows to directly address tensors on block level using HTTP range reads. Once in GPU memory, data can be transformed using PyTorch transforms. We provide a generic PyTorch dataset type with a corresponding dataset factory translating relational queries and requested transformations as an instance. By making use of the HSI, irrelevant blocks can be skipped without reading them as those indices contain statistics on their content at different hierarchical resolution levels. This is an opinionated architecture powered by open standards and making heavy use of open-source technology. Although, hardened for production use using geospatial-temporal data, this architecture generalizes to other use case like computer vision, computational neuroscience, biological sequence analysis and more.
- Abstract(参考訳): 基礎モデルトレーニングのための高次元データのストリングとストリーミングは、自然言語を超えた基礎モデルの台頭によって重要な要件となった。
本稿では,複雑なリレーショナルクエリに基づいて,クラウドオブジェクトストア(COS)からGPUメモリへテンソルを高速にストリーミング可能な,ペタバイト規模のテンソルレイクハウスであるTensorBankを紹介する。
クエリアクセラレーションには階層統計指標(HSI)を用いる。
当社のアーキテクチャでは,HTTPレンジ読み込みを使用して,ブロックレベルのテンソルを直接処理することが可能です。
GPUメモリでは、PyTorch変換を使用してデータを変換することができる。
我々は、リレーショナルクエリと要求された変換をインスタンスとして翻訳する、対応するデータセットファクトリを備えた汎用的なPyTorchデータセットタイプを提供する。
HSIを使用することで、関連するブロックを読まずにスキップすることができる。
これは、オープンスタンダードとオープンソースの技術を多用した、意見に富んだアーキテクチャである。
地理空間時間データを用いた生産用として強化されているが、このアーキテクチャはコンピュータビジョン、計算神経科学、生物学的配列解析など他のユースケースに一般化されている。
関連論文リスト
- Automating Data Science Pipelines with Tensor Completion [4.956678070210018]
我々はテンソル補完の例としてデータサイエンスパイプラインをモデル化する。
目標は、可変値のすべての組み合わせに対応するテンソルの欠落する全てのエントリを特定することである。
既存の手法と提案手法を多種多様なデータセットで広く評価する。
論文 参考訳(メタデータ) (2024-10-08T22:34:08Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Federated Learning with Heterogeneous Architectures using Graph
HyperNetworks [154.60662664160333]
パラメータ共有にグラフハイパーネットワークを採用することにより、異種クライアントアーキテクチャに対応する新しいFLフレームワークを提案する。
既存のソリューションとは異なり、当社のフレームワークは、クライアントが同じアーキテクチャタイプを共有することを制限せず、外部データも使用せず、クライアントがモデルアーキテクチャを公開する必要もありません。
論文 参考訳(メタデータ) (2022-01-20T21:36:25Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - TyXe: Pyro-based Bayesian neural nets for Pytorch [12.343312954353639]
我々はPytorchとPyro上に構築されたベイズニューラルネットワークライブラリTyXeを紹介する。
私たちの主要な設計原則は、アーキテクチャ、事前、推論、そして可能性仕様をきれいに分離することです。
既存のパッケージとは対照的に、TyXeはいかなるレイヤクラスも実装せず、代わりに一般的なPytorchコードで定義されたアーキテクチャに依存している。
論文 参考訳(メタデータ) (2021-10-01T09:04:26Z) - HetSeq: Distributed GPU Training on Heterogeneous Infrastructure [13.689451154861203]
HetSeqは、異種インフラストラクチャ上で大規模なニューラルネットワークモデルをトレーニングする機能を提供するソフトウェアパッケージである。
変換器変換とBERT言語モデルによる実験により、HetSeqは異種システム上でスケール可能であることが示された。
論文 参考訳(メタデータ) (2020-09-25T19:57:42Z) - Captum: A unified and generic model interpretability library for PyTorch [49.72749684393332]
我々は,PyTorch用の新しい,統一されたオープンソースモデル解釈可能性ライブラリを紹介する。
このライブラリには、多くの勾配と摂動に基づく属性アルゴリズムの汎用的な実装が含まれている。
分類モデルと非分類モデルの両方に使用できる。
論文 参考訳(メタデータ) (2020-09-16T18:57:57Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - How to 0wn NAS in Your Spare Time [11.997555708723523]
本研究では,キャッシュ側チャネル攻撃による情報漏洩を利用して,新しいディープラーニングシステムの主要コンポーネントを再構築するアルゴリズムを設計する。
我々は、マルウェア検出のための新しいデータ前処理パイプラインであるMalConvと、画像ネット分類のための新しいネットワークアーキテクチャであるProxylessNAS CPU-NASを再構築できることを実験的に実証した。
論文 参考訳(メタデータ) (2020-02-17T05:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。