Fugu-MT 論文翻訳(概要): HipaccVX: Wedding of OpenVX and DSL-based Code Generation

論文の概要: HipaccVX: Wedding of OpenVX and DSL-based Code Generation

arxiv url: http://arxiv.org/abs/2008.11476v1
Date: Wed, 26 Aug 2020 10:30:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 22:21:07.462683
Title: HipaccVX: Wedding of OpenVX and DSL-based Code Generation
Title（参考訳）: HipaccVX: OpenVXとDSLベースのコード生成の結婚
Authors: M. Akif \"Ozkan, Burak Ok, Bo Qiao, J\"urgen Teich, Frank Hannig
Abstract要約: OpenVXはコンピュータビジョンアプリケーションのためのグラフ実行標準である。 OpenVXはNvidia GTX GPUのスループットを2倍にし、Xilinx Zynq FPGAのリソース使用量を50%削減できることを示す。また,提案するコンパイラフレームワークであるHipaccVXは,最新のNvidia VisionWorksやHalide-HLSよりも優れた結果が得られることを示す。
参考スコア（独自算出の注目度）: 3.7825095480141986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Writing programs for heterogeneous platforms optimized for high performance is hard since this requires the code to be tuned at a low level with architecture-specific optimizations that are most times based on fundamentally differing programming paradigms and languages. OpenVX promises to solve this issue for computer vision applications with a royalty-free industry standard that is based on a graph-execution model. Yet, the OpenVX' algorithm space is constrained to a small set of vision functions. This hinders accelerating computations that are not included in the standard. In this paper, we analyze OpenVX vision functions to find an orthogonal set of computational abstractions. Based on these abstractions, we couple an existing Domain-Specific Language (DSL) back end to the OpenVX environment and provide language constructs to the programmer for the definition of user-defined nodes. In this way, we enable optimizations that are not possible to detect with OpenVX graph implementations using the standard computer vision functions. These optimizations can double the throughput on an Nvidia GTX GPU and decrease the resource usage of a Xilinx Zynq FPGA by 50% for our benchmarks. Finally, we show that our proposed compiler framework, called HipaccVX, can achieve better results than the state-of-the-art approaches Nvidia VisionWorks and Halide-HLS.
Abstract（参考訳）: ハイパフォーマンスに最適化されたヘテロジニアスプラットフォーム向けのプログラムを書くことは難しい。これは、基本的に異なるプログラミングパラダイムと言語に基づいたアーキテクチャ固有の最適化で、コードを低レベルに調整する必要があるためである。 OpenVXは、グラフ実行モデルに基づくロイヤリティフリーな業界標準によるコンピュータビジョンアプリケーションのこの問題を解決することを約束している。しかし、OpenVXのアルゴリズム空間は、視覚関数の小さなセットに制約されている。これは標準に含まれない計算の高速化を妨げる。本稿では,OpenVX視覚関数を解析し,直交する計算抽象化の集合を求める。これらの抽象化に基づいて、既存のドメイン固有言語(dsl)をopenvx環境に結合し、ユーザ定義ノードの定義のためにプログラマに言語構造を提供します。このようにして、標準的なコンピュータビジョン関数を用いてOpenVXグラフ実装では検出できない最適化を可能にする。これらの最適化により、Nvidia GTX GPUのスループットを2倍にし、ベンチマークでXilinx Zynq FPGAのリソース使用量を50%削減できる。最後に,提案するコンパイラフレームワークであるHipaccVXは,最新のNvidia VisionWorksやHalide-HLSよりも優れた結果が得られることを示す。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving [12.068287973463786]
Serving Large Language Models (LLMs) はAIを利用したアプリケーションには必須だが、かなりの計算資源を必要とする。低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。低精度カーネルを生成するための既存のアプローチは、2つのパワーを持つウェイトビット幅に限られている。
論文参考訳（メタデータ） (2025-04-17T14:45:03Z)
Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文参考訳（メタデータ） (2023-12-15T04:13:21Z)
An approach to performance portability through generic programming [0.0]
この研究は、低レベルおよび冗長なプログラミングツールを、C++のテンプレートメタプログラミングに基づく高レベルな汎用アルゴリズムに統合するための設計アプローチを説明する。これにより、HPCのハードウェアの多様化期間において、科学ソフトウェアは保守性と効率が向上する。
論文参考訳（メタデータ） (2023-11-08T21:54:43Z)
CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。 CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。 CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2023-11-06T13:04:39Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
End-to-end Mapping in Heterogeneous Systems Using Graph Representation Learning [13.810753108848582]
本稿では,エンドツーエンドでプログラム可能なグラフ表現学習フレームワークを提案する。高レベルのプログラムの複雑さを普遍的な中間表現にマイニングし、特定の計算パターンを抽出し、特定のコア上でどのコードセグメントがベストに動作するかを予測できる。評価では、スレッドベースの実行と比較して最大速度が6.42倍、最先端技術と比較して2.02倍であることを示す。
論文参考訳（メタデータ） (2022-04-25T22:13:13Z)
Compiling ONNX Neural Network Models Using MLIR [51.903932262028235]
本稿では,深層ニューラルネットワークモデルの推論のためのコードを生成するonnx-mlirコンパイラについて予備報告を行う。 Onnx-mlirは、最近LLVMプロジェクトに統合されたMulti-Level Intermediate Representation (MLIR)インフラストラクチャに依存している。
論文参考訳（メタデータ） (2020-08-19T05:28:08Z)
Optimization of XNOR Convolution for Binary Convolutional Neural Networks on GPU [2.578242050187029]
本稿では,GPU上でのバイナリ畳み込みネットワーク推論の実装を提案する。実験の結果、GPUを使用することで、カーネルサイズが3ドル3セントの最大42.61ドルまでスピードアップできることがわかった。
論文参考訳（メタデータ） (2020-07-28T13:01:17Z)
Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文参考訳（メタデータ） (2020-03-30T14:16:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。