論文の概要: Bullion: A Column Store for Machine Learning
- arxiv url: http://arxiv.org/abs/2404.08901v1
- Date: Sat, 13 Apr 2024 05:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:13:13.339300
- Title: Bullion: A Column Store for Machine Learning
- Title(参考訳): Bullion: 機械学習のためのカラムストア
- Authors: Gang Liao, Ye Liu, Jianjun Chen, Daniel J. Abadi,
- Abstract要約: Bullionは、機械学習ワークロードに適した列指向ストレージシステムである。
データコンプライアンスの複雑さに対処し、長いシーケンススパース機能の符号化を最適化し、拡張可能なプロジェクションを効率的に管理し、ストレージに機能量子化を導入する。
- 参考スコア(独自算出の注目度): 4.096087402737292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past two decades have witnessed columnar storage revolutionizing data warehousing and analytics. However, the rapid growth of machine learning poses new challenges to this domain. This paper presents Bullion, a columnar storage system tailored for machine learning workloads. Bullion addresses the complexities of data compliance, optimizes the encoding of long sequence sparse features, efficiently manages wide-table projections, and introduces feature quantization in storage. By aligning with the evolving requirements of ML applications, Bullion extends columnar storage to various scenarios, from advertising and recommendation systems to the expanding realm of Generative AI. Preliminary experimental results and theoretical analysis demonstrate Bullion's superior performance in handling the unique demands of machine learning workloads compared to existing columnar storage solutions. Bullion significantly reduces I/O costs for deletion compliance, achieves substantial storage savings with its optimized encoding scheme for sparse features, and drastically improves metadata parsing speed for wide-table projections. These advancements position Bullion as a critical component in the future of machine learning infrastructure, enabling organizations to efficiently manage and process the massive volumes of data required for training and inference in modern AI applications.
- Abstract(参考訳): 過去20年間、コラムストレージはデータのウェアハウスと分析に革命をもたらした。
しかし、機械学習の急速な成長は、この領域に新たな課題をもたらす。
本稿では,機械学習処理に適した列記憶システムであるBullionについて述べる。
Bullionはデータコンプライアンスの複雑さに対処し、長いシーケンススパース機能のエンコーディングを最適化し、ワイドなプロジェクションを効率的に管理し、ストレージに機能量子化を導入する。
MLアプリケーションの進化する要件に合わせて、Bullionはコラムストレージを、広告やレコメンデーションシステムから、ジェネレーティブAIの領域の拡大に至るまで、さまざまなシナリオに拡張する。
予備的な実験結果と理論的分析は、既存のカラム型ストレージソリューションと比較して、機械学習ワークロードのユニークな要求を処理する上で、Bullionの優れたパフォーマンスを示している。
Bullionは削除コンプライアンスのI/Oコストを大幅に削減し、スパース機能に最適化された符号化スキームで大幅なストレージ節約を実現し、ワイドテーブルプロジェクションのメタデータ解析速度を大幅に改善する。
これらの進歩は、Bulionをマシンラーニングインフラストラクチャの将来において重要なコンポーネントとして位置付けており、現代的なAIアプリケーションにおけるトレーニングと推論に必要な大量のデータを効率的に管理し、処理することができる。
関連論文リスト
- Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New Era in Copilot-Guided Cross-Modal Time Series Representation Learning [0.0]
パティオ時間予測は、輸送システム、物流、サプライチェーン管理など、様々な分野において重要な役割を担っている。
本稿では,オープンソースの大規模・小規模言語モデル(LLM,LM)と従来の予測手法を組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-08-26T16:11:53Z) - MaxMind: A Memory Loop Network to Enhance Software Productivity based on Large Language Models [13.839564855350295]
本稿では,リアルタイムタスク体験をシステムメモリに変換することの重要性について論じる。
タスク記憶の蓄積とリサイクルがタスク成功率の着実に向上することを示す。
メモリリサイクルを取り入れることで、システムのタスク実行効率を最大25%向上させることができる。
論文 参考訳(メタデータ) (2024-08-07T15:27:22Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Retrieval-Enhanced Machine Learning [110.5237983180089]
本稿では,いくつかの既存モデルを含む汎用的な検索強化機械学習フレームワークについて述べる。
REMLは情報検索の慣例に挑戦し、最適化を含む中核領域における新たな進歩の機会を提示している。
REMLリサーチアジェンダは、情報アクセス研究の新しいスタイルの基礎を築き、機械学習と人工知能の進歩への道を開く。
論文 参考訳(メタデータ) (2022-05-02T21:42:45Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z) - Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights [18.04657939198617]
本稿では,ハードウェアアクセラレータ上での機械学習モデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
異なるハードウェア設計とアクセラレーション技術を分析し、ハードウェアと実行コストの観点から分析する。
スパース、不規則形状、量子化テンソルの加速における重要な課題を理解すること。
論文 参考訳(メタデータ) (2020-07-02T04:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。