Fugu-MT 論文翻訳(概要): COGNATE: Acceleration of Sparse Tensor Programs on Emerging Hardware using Transfer Learning

論文の概要: COGNATE: Acceleration of Sparse Tensor Programs on Emerging Hardware using Transfer Learning

arxiv url: http://arxiv.org/abs/2506.00424v1
Date: Sat, 31 May 2025 06:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:32.988746
Title: COGNATE: Acceleration of Sparse Tensor Programs on Emerging Hardware using Transfer Learning
Title（参考訳）: COGNATE:トランスファーラーニングを用いた新興ハードウェアにおけるスパーステンソルプログラムの高速化
Authors: Chamika Sudusinghe, Gerasimos Gerogiannis Damitha Lenadora, Charles Block, Josep Torrellas, Charith Mendis,
Abstract要約: COGNATEは、汎用ハードウェアの安価なデータサンプルを利用してコストモデルをトレーニングする新しいフレームワークである。我々はCOGNATEが既存の技術より優れており、SDDMMでは1.47倍(最大5.46倍)、SDDMMでは1.39倍(最大4.22倍)のスピードアップを実現していることを示した。
参考スコア（独自算出の注目度）: 6.8285467057172555
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse tensor programs are essential in deep learning and graph analytics, driving the need for optimized processing. To meet this demand, specialized hardware accelerators are being developed. Optimizing these programs for accelerators is challenging for two reasons: program performance is highly sensitive to variations in sparse inputs, and early-stage accelerators rely on expensive simulators. Therefore, ML-based cost models used for optimizing such programs on general-purpose hardware are often ineffective for early-stage accelerators, as they require large datasets for proper training. To this end, we introduce COGNATE, a novel framework that leverages inexpensive data samples from general-purpose hardware (e.g., CPUs) to train cost models, followed by few-shot fine-tuning on emerging hardware. COGNATE exploits the homogeneity of input features across hardware platforms while effectively mitigating heterogeneity, enabling cost model training with just 5% of the data samples needed by accelerator-specific models to achieve comparable performance. We conduct extensive experiments to demonstrate that COGNATE outperforms existing techniques, achieving average speedups of 1.47x (up to 5.46x) for SpMM and 1.39x (up to 4.22x) for SDDMM.
Abstract（参考訳）: スパーステンソルプログラムはディープラーニングとグラフ解析に不可欠であり、最適化された処理の必要性を招いている。この需要に応えるため、特別なハードウェアアクセラレータが開発されている。プログラムのパフォーマンスはスパース入力のバリエーションに非常に敏感であり、アーリーステージアクセラレータは高価なシミュレータに依存している。したがって、汎用ハードウェア上でこのようなプログラムを最適化するのに使用されるMLベースのコストモデルは、適切なトレーニングのために大規模なデータセットを必要とするため、アーリーステージアクセラレーターには有効ではないことが多い。この目的のために,コストモデルをトレーニングするために汎用ハードウェア(CPUなど)から安価なデータサンプルを活用する新しいフレームワークであるCOGNATEを紹介した。 COGNATEはハードウェアプラットフォーム全体の入力機能の均質性を生かし、不均一性を効果的に軽減し、アクセル固有のモデルに必要なデータサンプルのわずか5%でコストモデルトレーニングを可能にする。我々はCOGNATEが既存の技術より優れており、SPMMでは1.47倍(最大5.46倍)、SDDMMでは1.39倍(最大4.22倍)のスピードアップを実現していることを示す。

関連論文リスト

MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。 MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文参考訳（メタデータ） (2025-06-09T16:16:50Z)
NeuroSim V1.5: Improved Software Backbone for Benchmarking Compute-in-Memory Accelerators with Device and Circuit-level Non-idealities [2.141889595429907]
本稿では,デバイスレベルおよび回路レベルの非理想性において重要な進歩をもたらすNeuroSim V1.5を提案する。 NeuroSim V1.5は次世代のACIMアクセラレータの設計と検証を推進している。 NeuroSimのすべてのバージョンはhttps://github.com/neurosim/NeuroSimでオープンソース公開されている。
論文参考訳（メタデータ） (2025-05-05T02:07:04Z)
Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文参考訳（メタデータ） (2025-03-18T23:15:02Z)
Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文参考訳（メタデータ） (2024-10-07T05:04:13Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
Moses: Efficient Exploitation of Cross-device Transferable Features for Tensor Program Optimization [10.115260534967645]
本研究では,宝くじの仮説に基づく簡易かつ効率的な設計法であるMosesを提案する。最先端のアプローチと比較して、Mosesは検索段階で最大1.53倍の効率向上を達成する。
論文参考訳（メタデータ） (2022-01-15T03:55:52Z)
Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文参考訳（メタデータ） (2022-01-13T15:20:45Z)
Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。 PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文参考訳（メタデータ） (2021-10-20T17:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。