Fugu-MT 論文翻訳(概要): Query Processing on Tensor Computation Runtimes

論文の概要: Query Processing on Tensor Computation Runtimes

arxiv url: http://arxiv.org/abs/2203.01877v1
Date: Thu, 3 Mar 2022 17:41:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-04 16:39:38.506955
Title: Query Processing on Tensor Computation Runtimes
Title（参考訳）: Tensor Computation Runtimeのクエリ処理
Authors: Dong He, Supun Nakandala, Dalitso Banda, Rathijit Sen, Karla Saur, Kwanghyun Park, Carlo Curino, Jes\'us Camacho-Rodr\'iguez, Konstantinos Karanasos, Matteo Interlandi
Abstract要約: 人工知能(AI)における計算の膨大な需要は、AIのための新しいハードウェアとソフトウェアシステムに、例外なく投資している。テンソルベースのインターフェースを通じて低レベルの複雑性を隠すことで、PyTorchのようなテンソルランタイム(TCR)は、データサイエンティストが新しいハードウェアが提供するエキサイティングな機能を効率的に活用することができる。
参考スコア（独自算出の注目度）: 8.538245568038654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The huge demand for computation in artificial intelligence (AI) is driving unparalleled investments in new hardware and software systems for AI. This leads to an explosion in the number of specialized hardware devices, which are now part of the offerings of major cloud providers. Meanwhile, by hiding the low-level complexity through a tensor-based interface, tensor computation runtimes (TCRs) such as PyTorch allow data scientists to efficiently exploit the exciting capabilities offered by the new hardware. In this paper, we explore how databases can ride the wave of innovation happening in the AI space. Specifically, we present Tensor Query Processor (TQP): a SQL query processor leveraging the tensor interface of TCRs. TQP is able to efficiently run the full TPC-H benchmark by implementing novel algorithms for executing relational operators on the specialized tensor routines provided by TCRs. Meanwhile, TQP can target various hardware while only requiring a fraction of the usual development effort. Experiments show that TQP can improve query execution time by up to 20x over CPU-only systems, and up to 5x over specialized GPU solutions. Finally, TQP can accelerate queries mixing ML predictions and SQL end-to-end, and deliver up to 5x speedup over CPU baselines.
Abstract（参考訳）: 人工知能(AI)における計算の膨大な需要は、AIのための新しいハードウェアとソフトウェアシステムに、例外なく投資している。これにより、主要なクラウドプロバイダが提供する特別なハードウェアデバイスが爆発的に増えている。一方、テンソルベースのインターフェースを通じて低レベルの複雑さを隠すことで、PyTorchのようなテンソル計算ランタイム(TCR)は、データサイエンティストが新しいハードウェアが提供するエキサイティングな機能を効率的に活用することができる。本稿では,ai分野におけるイノベーションの波にデータベースがどのように乗れるかを検討する。具体的には,TCRのテンソルインタフェースを利用したSQLクエリプロセッサであるTensor Query Processor (TQP)を提案する。 TQP は TCR が提供する特殊テンソルルーチン上でリレーショナル演算子を実行する新しいアルゴリズムを実装することで,完全な TPC-H ベンチマークを効率的に実行することができる。一方、TQPは通常の開発作業のほんの一部しか必要とせず、様々なハードウェアをターゲットにすることができる。実験によると、TQPはCPUのみのシステムでクエリ実行時間を最大20倍改善し、特殊なGPUソリューションで最大5倍改善できる。最後に、TQPはML予測とSQLエンドツーエンドを混合したクエリを高速化し、CPUベースラインの最大5倍のスピードアップを提供する。

関連論文リスト

NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
Optimizing Quantum Fourier Transformation (QFT) Kernels for Modern NISQ and FT Architectures [6.767596433809014]
量子変換(QFT)のためのドメイン固有ハードウェアマッピング手法を提案する。プログラム合成ツールの助けを借りて、キュービットマッピングソリューションを探索するために、QFTにおける緩和順序付けとユニット探索の洞察を統一する。本手法は, Google Sycamore, IBM Heavy-hex, 格子手術において, 量子ビット数に関して線形深度QFT回路を保証する最初の方法である。
論文参考訳（メタデータ） (2024-08-20T22:54:16Z)
Quantum Compiling with Reinforcement Learning on a Superconducting Processor [55.135709564322624]
超伝導プロセッサのための強化学習型量子コンパイラを開発した。短絡の新規・ハードウェア対応回路の発見能力を示す。本研究は,効率的な量子コンパイルのためのハードウェアによるソフトウェア設計を実証する。
論文参考訳（メタデータ） (2024-06-18T01:49:48Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Share the Tensor Tea: How Databases can Leverage the Machine Learning Ecosystem [11.606346458417969]
演算子を自動的にテンソルプログラムにコンパイルするクエリプロセッサを実演する。 PyTorchのようなテンソルランタイムを活用することで、TQPはMLツールとの統合が可能になる。パフォーマンスは、特別なCPUやGPUクエリプロセッサと同等で、多くの場合は同等である。
論文参考訳（メタデータ） (2022-09-10T03:10:57Z)
Towards making the most of NLP-based device mapping optimization for OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文参考訳（メタデータ） (2022-08-30T10:20:55Z)
Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。 LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文参考訳（メタデータ） (2022-05-30T14:30:45Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Combining processing throughput, low latency and timing accuracy in experiment control [0.0]
我々はARTIQ実験制御インフラのファームウェアを商用のXilinx Zynq-7000システムオンチップに基づく組み込みシステムに移植した。 FPGAファブリックと統合された高性能のハードワイヤCPUコアを含んでいる。
論文参考訳（メタデータ） (2021-11-30T11:11:02Z)
HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data Analytics [0.0]
HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。 HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
論文参考訳（メタデータ） (2020-07-27T13:33:17Z)
One-step regression and classification with crosspoint resistive memory arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文参考訳（メタデータ） (2020-05-05T08:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。