Fugu-MT 論文翻訳(概要): SOL: Reducing the Maintenance Overhead for Integrating Hardware Support into AI Frameworks

論文の概要: SOL: Reducing the Maintenance Overhead for Integrating Hardware Support into AI Frameworks

arxiv url: http://arxiv.org/abs/2205.10357v1
Date: Thu, 19 May 2022 08:40:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 19:51:48.672497
Title: SOL: Reducing the Maintenance Overhead for Integrating Hardware Support into AI Frameworks
Title（参考訳）: SOL: ハードウェアサポートをAIフレームワークに統合するためのメンテナンスオーバーヘッドを削減する
Authors: Nicolas Weber
Abstract要約: Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4JといったAIフレームワークは、ハイレベルなスクリプティングAPIを提供する。主流でないCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。 NEC Laboratories Europeは、すでに数年前にSOL AI Optimizationプロジェクトの開発を開始した。
参考スコア（独自算出の注目度）: 0.7614628596146599
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increased interest in Artificial Intelligence (AI) raised the need for highly optimized and sophisticated AI frameworks. Starting with the Lua-based Torch many frameworks have emerged over time, such as Theano, Caffe, Chainer, CNTK, MxNet, PyTorch, DL4J, or TensorFlow. All of these provide a high level scripting API that allows users to easily design neural networks and run these on various kinds of hardware. What the user usually does not see is the high effort put into these frameworks to provide peak execution performance. While mainstream CPUs and GPUs have the "luxury" to have a wide spread user base in the open source community, less mainstream CPU, GPU or accelerator vendors need to put in a high effort to get their hardware supported by these frameworks. This includes not only the development of highly efficient compute libraries such as CUDNN, OneDNN or VEDNN but also supporting an ever growing number of simpler compute operations such as summation and multiplications. Each of these frameworks, nowadays, supports several hundred of unique operations, with tensors of various sizes, shapes and data types, which end up in thousands of compute kernels required for each device type. And the number of operations keeps increasing. That is why NEC Laboratories Europe started developing the SOL AI Optimization project already years ago, to deliver optimal performance to users while keeping the maintenance burden minimal.
Abstract（参考訳）: 人工知能(AI)への関心が高まり、高度に最適化された洗練されたAIフレームワークの必要性が高まった。 LuaベースのTorchから、Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4J、TensorFlowなど、多くのフレームワークが時間をかけて登場した。これらすべてが高レベルのスクリプティングAPIを提供しており、ユーザーはニューラルネットワークを設計し、さまざまな種類のハードウェア上でそれらを実行できる。通常ユーザが見ることができないのは、ピーク時の実行パフォーマンスを提供するためにこれらのフレームワークに費やされた高い労力です。主流のCPUやGPUは、オープンソースコミュニティに広く普及する"豪華な"ものである一方で、主流のCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。これには、CUDNN、OneDNN、VEDNNのような高効率な計算ライブラリの開発だけでなく、和算や乗算のようなより単純な計算操作もサポートしている。現在、これらのフレームワークはそれぞれ数百のユニークな操作をサポートしており、さまざまなサイズ、形状、データ型を持つテンソルは、各デバイスタイプに必要な数千の計算カーネルで終わる。そしてオペレーションの数は増え続けています。 NEC Laboratories Europeはすでに、メンテナンスの負担を最小限に抑えながら、ユーザに最適なパフォーマンスを提供するため、SOL AI Optimizationプロジェクトの開発を開始しています。

関連論文リスト

QiMeng-TensorOp: Automatically Generating High-Performance Tensor Operators with Hardware Primitives [21.529815293977833]
ワンラインユーザプロンプト(QiMeng-TensorOp)を用いたテンソル演算型自動生成フレームワークを提案する。本稿では,QiMeng-TensorOpがハードウェアプラットフォームの計算能力を効果的に解き放ち,高性能なテンソル演算子を自動生成することを示す。
論文参考訳（メタデータ） (2025-05-08T02:36:21Z)
TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。 TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2025-04-24T14:08:49Z)
NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
Spyx: A Library for Just-In-Time Compiled Optimization of Spiking Neural Networks [0.08965418284317034]
Spiking Neural Networks(SNN)は、小さくて低消費電力なハードウェアフットプリントによるエネルギー効率の向上を提供する。本稿では、JAXで設計された新しい軽量SNNシミュレーションおよび最適化ライブラリSpyxを紹介する。
論文参考訳（メタデータ） (2024-02-29T09:46:44Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文参考訳（メタデータ） (2023-03-29T17:59:58Z)
CoCoPIE XGen: A Full-Stack AI-Oriented Optimizing Framework [40.53707613126131]
クラウド上のデータセンタからエッジあるいはエンドデバイスへと、AI能力のデリバリをシフトする需要が高まっている。しかし、このシフトは、DNNコンピューティング要求とエッジまたはエンドデバイスにおけるコンピューティングパワーの間の大きなギャップによって妨げられている。本稿では、このギャップを埋めるために設計されたDNNの最適化フレームワークであるXGenの設計について述べる。
論文参考訳（メタデータ） (2022-06-21T14:10:22Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
Bring Your Own Codegen to Deep Learning Compiler [8.87545486816377]
本稿では,独自のコード生成ツールの開発にのみ集中できるオープンソースフレームワークを提案する。当社のフレームワークは、柔軟で使いやすいインターフェースをユーザーに提供し、モデルを「最高の」プロセッサで実行できるセグメントに分割します。
論文参考訳（メタデータ） (2021-05-03T17:22:25Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)
SOL: Effortless Device Support for AI Frameworks without Source Code Changes [1.030051577369649]
我々は、異種ハードウェアを透過的にサポートできるハードウェア抽象化層を提供するAIアクセラレーションであるSOLを紹介した。概念実証として,CPU,GPU,ベクトルプロセッサの3つのバックエンドでPyTorch用のSOLを実装した。
論文参考訳（メタデータ） (2020-03-24T07:03:09Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)
Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文参考訳（メタデータ） (2020-01-13T13:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。