論文の概要: RawArray: A Simple, Fast, and Extensible Archival Format for Numeric
Data
- arxiv url: http://arxiv.org/abs/2112.01273v1
- Date: Tue, 30 Nov 2021 03:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 14:10:57.199390
- Title: RawArray: A Simple, Fast, and Extensible Archival Format for Numeric
Data
- Title(参考訳): RawArray: 数値データのためのシンプルで高速で拡張可能なアーカイブフォーマット
- Authors: David S. Smith
- Abstract要約: 科学研究において、生データのサイズは成長し、増大している。
プロプライエタリで靴を履いたデータフォーマットは、計算を遅くし、研究を再現し、新しいプラットフォームにメソッドを移植することを難しくします。
ここでは、RawArrayフォーマットについて述べる: ディスク上の多次元数値配列のアーカイブ記憶のための単純で高速、かつ形式である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Raw data sizes are growing and proliferating in scientific research, driven
by the success of data-hungry computational methods, such as machine learning.
The preponderance of proprietary and shoehorned data formats make computations
slower and make it harder to reproduce research and to port methods to new
platforms. Here we present the RawArray format: a simple, fast, and extensible
format for archival storage of multidimensional numeric arrays on disk.
The RawArray file format is a simple concatenation of a header array and a
data array. The header comprises seven or more 64-bit unsigned integers. The
array data can be anything. Arbitrary user metadata can be appended to an
RawArray file if desired, for example to store measurement details, color
palettes, or geolocation data.
We present benchmarks showing a factor of 2--3$\times$ speedup over HDF5 for
a range of array sizes and a speedup of up to 20$\times$ in reading the common
deep learning datasets MNIST and CIFAR10.
- Abstract(参考訳): 生のデータサイズは、機械学習のようなデータ格納型計算手法の成功によって、科学研究において成長し、拡大している。
プロプライエタリなデータフォーマットのプレポンダランスにより、計算が遅くなり、研究の再現や新しいプラットフォームへのメソッドの移植が難しくなる。
ここではRawArrayフォーマットについて述べる。ディスク上の多次元数値配列のアーカイブ記憶のための単純で高速で拡張可能なフォーマットである。
RawArrayファイル形式はヘッダ配列とデータ配列の単純な結合である。
ヘッダは7つ以上の64ビットの符号なし整数からなる。
配列データは何でもできます。
任意のユーザーメタデータは、測定の詳細、カラーパレット、位置情報データを格納するために、必要に応じてrawarrayファイルに追加することができる。
本稿では,一般的な深層学習データセット mnist と cifar10 を読む際に,アレイサイズの範囲で hdf5 に対して 2--3-\times$ のスピードアップと最大 20$\times$ のスピードアップを示すベンチマークを示す。
関連論文リスト
- Generalized compression and compressive search of large datasets [0.0]
panCAKESは圧縮検索の新しいアプローチであり、圧縮されたデータに対して$k$-NNと$rho$-NN検索を実行する方法である。
PanCAKESは多様体仮説を仮定し、データの低次元構造を利用して効率よく圧縮・探索する。
ゲノミクス、プロテオミクス、データセットなど、さまざまなデータセットでpanCAKESをベンチマークします。
論文 参考訳(メタデータ) (2024-09-18T17:25:31Z) - From a Lossless (~1.5:1) Compression Algorithm for Llama2 7B Weights to Variable Precision, Variable Range, Compressed Numeric Data Types for CNNs and LLMs [0.0]
本稿では,LLM (Large Language Model) Llama2 7Bの重みに対する単純な損失のない1.5:1圧縮アルゴリズムから始める。
その後、可変精度、可変範囲、圧縮された数値データ型に拡張される。
重量圧縮と共有を用いたトークンファクトリの例も提供される。
論文 参考訳(メタデータ) (2024-04-16T20:37:54Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - HDCC: A Hyperdimensional Computing compiler for classification on
embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。
nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。
これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文 参考訳(メタデータ) (2023-04-24T19:16:03Z) - Awkward to RDataFrame and back [0.0]
Awkward ArraysとRDataFrameは、2つの非常に異なる計算方法を提供している。
Awkward Arrayバージョン2では、ak.to_rdataframe関数は、Awkward ArrayのビューをRDataFrameソースとして表示する。
ak.from_rdataframe関数は、選択した列をネイティブなAwkward Arrayとして変換する。
論文 参考訳(メタデータ) (2023-02-20T09:41:02Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings [77.6701264226519]
byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
論文 参考訳(メタデータ) (2021-06-24T20:14:48Z) - Data Engineering for HPC with Python [0.0]
データエンジニアリングは、さまざまなデータフォーマット、ストレージ、データ抽出、変換、データ移動を扱う。
データエンジニアリングの1つのゴールは、データを元のデータから、ディープラーニングや機械学習アプリケーションで受け入れられるベクトル/行列/テンソルフォーマットに変換することである。
データを表現および処理するためのテーブル抽象化に基づく分散Python APIを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:11Z) - DA-NAS: Data Adapted Pruning for Efficient Neural Architecture Search [76.9225014200746]
ニューラルネットワーク探索(NAS)における効率的な探索は中核的な問題である
本稿では,大規模ターゲットタスクのアーキテクチャを直接検索できるDA-NASを提案する。
従来の手法より2倍速く、精度は現在最先端であり、小さなFLOPの制約下で76.2%である。
論文 参考訳(メタデータ) (2020-03-27T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。