Fugu-MT 論文翻訳(概要): No Saved Kaleidosope: an 100% Jitted Neural Network Coding Language with Pythonic Syntax

論文の概要: No Saved Kaleidosope: an 100% Jitted Neural Network Coding Language with Pythonic Syntax

arxiv url: http://arxiv.org/abs/2409.11600v1
Date: Tue, 17 Sep 2024 23:15:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 19:39:45.303889
Title: No Saved Kaleidosope: an 100% Jitted Neural Network Coding Language with Pythonic Syntax
Title（参考訳）: No Saved Kaleidosope:Pythonの構文を持つ100%ジットニューラルネットワーク符号化言語
Authors: Augusto Seben da Rosa, Marlon Daniel Angeli, Jorge Aikes Junior, Alef Iury Ferreira, Lucas Rafael Gris, Anderson da Silva Soares, Arnaldo Candido Junior, Frederico Santos de Oliveira, Gabriel Trevisan Damke, Rafael Teixeira Sousa,
Abstract要約: 我々は,C++,LLVM,Cudaを用いてニューラルネットワークを学習するためのjittedコンパイラを開発した。オブジェクト指向の特徴、強い型付け、データ前処理のための並列ワーカー、式のためのピソニック構文、PyTorchのようなモデル宣言、自動微分などが特徴である。
参考スコア（独自算出の注目度）: 0.8408735228878615
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We developed a jitted compiler for training Artificial Neural Networks using C++, LLVM and Cuda. It features object-oriented characteristics, strong typing, parallel workers for data pre-processing, pythonic syntax for expressions, PyTorch like model declaration and Automatic Differentiation. We implement the mechanisms of cache and pooling in order to manage VRAM, cuBLAS for high performance matrix multiplication and cuDNN for convolutional layers. Our experiments with Residual Convolutional Neural Networks on ImageNet, we reach similar speed but degraded performance. Also, the GRU network experiments show similar accuracy, but our compiler have degraded speed in that task. However, our compiler demonstrates promising results at the CIFAR-10 benchmark, in which we reach the same performance and about the same speed as PyTorch. We make the code publicly available at: https://github.com/NoSavedDATA/NoSavedKaleidoscope
Abstract（参考訳）: 我々は,C++,LLVM,Cudaを用いてニューラルネットワークを学習するためのjittedコンパイラを開発した。オブジェクト指向の特徴、強い型付け、データ前処理のための並列ワーカー、式のためのピソニック構文、PyTorchのようなモデル宣言、自動微分などが特徴である。 VRAM, cuBLAS, 畳み込み層のためのcuDNN, 高速行列乗算のためのキャッシュとプールの機構を実装した。 ImageNet上のResidual Convolutional Neural Networksを用いた実験では、同様の速度で性能が低下する。また、GRUネットワーク実験も同様の精度を示すが、我々のコンパイラはその処理の速度を劣化させた。しかし、コンパイラーはCIFAR-10ベンチマークで有望な結果を示し、PyTorchと同じ性能とほぼ同じ速度に到達した。 https://github.com/NoSavedDATA/NoSavedKaleidoscope

関連論文リスト

VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文参考訳（メタデータ） (2026-01-21T19:29:00Z)
GraphNet: A Large-Scale Computational Graph Dataset for Tensor Compiler Research [8.344163643041753]
GraphNetは、リッチメタデータを備えた2.7Kの現実世界のディープラーニング計算グラフのデータセットである。我々は、デフォルトのテンソルコンパイラ、PaddlePaddle用のCINN、PyTorch用のTorchInductor、コンピュータビジョン(CV)と自然言語処理(NLP)のサンプルをベンチマークし、GraphNetの実用性を実証した。
論文参考訳（メタデータ） (2025-10-28T03:36:05Z)
pyGinkgo: A Sparse Linear Algebra Operator Framework for Python [0.0]
pyGinkgoはGinkgoライブラリの軽量でPython的なインターフェースである。 pyGinkgoは、Pybind11とaPyとPyTorch互換インターフェースを介してGinkgoの機能を公開することで、高性能なC++バックエンドとPythonのギャップを埋める。
論文参考訳（メタデータ） (2025-10-09T13:55:51Z)
An Empirical Study on the Performance and Energy Usage of Compiled Python Code [5.829253903555323]
Pythonは、学習の容易さと広範なライブラリで知られる人気のあるプログラミング言語である。性能とエネルギー効率を比較した分析は限られている。本研究では,コンパイルがPythonコードの性能とエネルギー消費に与える影響について検討した。
論文参考訳（メタデータ） (2025-05-05T04:01:56Z)
GPRat: Gaussian Process Regression with Asynchronous Tasks [45.53402807796089]
我々は、非同期ランタイムモデルHPX上に構築されたタスクベースのC++コードをpybind11を使用したハイレベルPython APIにバインディングする新しい方法を提案する。 GPRatはGPyTorchやGPflowと比較して、AMD EPYC 7742 CPU上で64コアまでのスケーリングが優れている。
論文参考訳（メタデータ） (2025-04-30T19:08:51Z)
Nerva: a Truly Sparse Implementation of Neural Networks [16.29955529463831]
Nervaは、C++で開発中の高速ニューラルネットワークライブラリである。 IntelのMath Kernel Libraryのスパースマトリックス操作を使用することで、スパシティをサポートする。
論文参考訳（メタデータ） (2024-07-24T17:13:31Z)
iSpLib: A Library for Accelerating Graph Neural Networks using Auto-tuned Sparse Operations [1.3030767447016454]
iSpLibは、自動調整されたスパース操作を備えたPyTorchベースのC++ライブラリである。 iSpLibは、CPU上のPyTorch 2.1.0とPyTorch Geometric 2.4.0と同等のPyTorch 2.1.0と比較して、最大27倍のトレーニングスピードアップが得られることを示した。
論文参考訳（メタデータ） (2024-03-21T21:56:44Z)
PyGim: An Efficient Graph Neural Network Library for Real Processing-In-Memory Architectures [10.047157906258196]
実PIMシステム上でグラフニューラルネットワークを高速化する,効率的なMLライブラリであるPyGimを紹介する。我々は、計算集約型およびメモリ集約型カーネルをプロセッサ中心およびメモリ中心のシステムで実行するハイブリッドGNN実行を提供する。我々は、1992年のPIMコアを持つ実世界のPIMシステム上で、新しいGNNモデルを用いてPyGimを広範囲に評価し、Intel Xeonの最先端CPUを平均3.04倍に上回っていることを示す。
論文参考訳（メタデータ） (2024-02-26T16:52:35Z)
Comparing neural network training performance between Elixir and Python [0.9023847175654603]
Pythonは、それ自体を主要なプログラミング言語の1つとして名づけた。 2021年2月、Jos'e ValimとSean Moriarityは、Nxライブラリの最初のバージョンを発表した。
論文参考訳（メタデータ） (2022-10-25T11:57:14Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
LoopStack: a Lightweight Tensor Algebra Compiler Stack [61.04098601022665]
LoopStackはテンソル操作のためのドメイン固有のコンパイラスタックである。最先端の機械学習フレームワークのパフォーマンスにマッチし、頻繁なマシンコードを生成する。メモリフットプリントは非常に小さく、バイナリサイズは245KBで、30K行未満の効率的なコードによって、モバイルや組み込みデバイスでの使用に適している。
論文参考訳（メタデータ） (2022-05-02T01:57:58Z)
Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文参考訳（メタデータ） (2021-06-30T03:54:35Z)
Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文参考訳（メタデータ） (2020-06-21T08:23:03Z)
Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。 PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-06-20T10:19:29Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
Performance Aware Convolutional Neural Network Channel Pruning for Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文参考訳（メタデータ） (2020-02-20T12:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。