論文の概要: Optimizing Tensor Train Decomposition in DNNs for RISC-V Architectures Using Design Space Exploration and Compiler Optimizations
- arxiv url: http://arxiv.org/abs/2602.01996v1
- Date: Mon, 02 Feb 2026 11:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.119862
- Title: Optimizing Tensor Train Decomposition in DNNs for RISC-V Architectures Using Design Space Exploration and Compiler Optimizations
- Title(参考訳): 設計空間探索とコンパイラ最適化を用いたRISC-VアーキテクチャのためのDNNにおけるテンソルトレイン分解の最適化
- Authors: Theologos Anthimopoulos, Milad Kokhazadeh, Vasilios Kelefouras, Benjamin Himpel, Georgios Keramidas,
- Abstract要約: 低ランク因子化(LRF)は、完全に連結された層を圧縮するための効果的なアプローチを提供する。
本稿では、RISC-Vプロセッサ上でのFC層最適化のためのエンド・ツー・エンドなLRF設計空間探索手法と特別設計ツールを紹介する。
TT分解層の平均走行速度はIREEの3倍、Plutoの8倍である。
- 参考スコア(独自算出の注目度): 1.37013665345905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have become indispensable in many real-life applications like natural language processing, and autonomous systems. However, deploying DNNs on resource-constrained devices, e.g., in RISC-V platforms, remains challenging due to the high computational and memory demands of fully connected (FC) layers, which dominate resource consumption. Low-rank factorization (LRF) offers an effective approach to compressing FC layers, but the vast design space of LRF solutions involves complex trade-offs among FLOPs, memory size, inference time, and accuracy, making the LRF process complex and time-consuming. This paper introduces an end-to-end LRF design space exploration methodology and a specialized design tool for optimizing FC layers on RISC-V processors. Using Tensor Train Decomposition (TTD) offered by TensorFlow T3F library, the proposed work prunes the LRF design space by excluding first, inefficient decomposition shapes and second, solutions with poor inference performance on RISC-V architectures. Compiler optimizations are then applied to enhance custom T3F layer performance, minimizing inference time and boosting computational efficiency. On average, our TT-decomposed layers run 3x faster than IREE and 8x faster than Pluto on the same compressed model. This work provides an efficient solution for deploying DNNs on edge and embedded devices powered by RISC-V architectures.
- Abstract(参考訳): 自然言語処理や自律システムなど、多くの現実的なアプリケーションにおいて、ディープニューラルネットワーク(DNN)は不可欠になっている。
しかし、リソース制約のあるデバイス(例えばRISC-Vプラットフォーム)にDNNをデプロイすることは、リソース消費を支配している完全連結(FC)層の高い計算とメモリ要求のため、依然として困難である。
低ランク因子化(LRF)は、FC層を圧縮するための効果的なアプローチであるが、LRFソリューションの広大な設計領域には、FLOP間の複雑なトレードオフ、メモリサイズ、推論時間、精度が含まれており、LRFプロセスは複雑で時間を要する。
本稿では、RISC-Vプロセッサ上でのFC層最適化のためのエンド・ツー・エンドなLRF設計空間探索手法と特別設計ツールを紹介する。
TensorFlow T3Fライブラリが提供するTensor Train Decomposition (TTD)を用いて、提案した研究は、RISC-Vアーキテクチャ上での推論性能の低い第1、非効率な分解形状と第2、ソリューションを除外することによって、LRF設計空間を傑出したものである。
コンパイラの最適化は、カスタムなT3F層の性能向上、推論時間の最小化、計算効率の向上に応用される。
TT分解層の平均走行速度はIREEの3倍、Plutoの8倍である。
この作業は、RISC-Vアーキテクチャを使用したエッジおよび組み込みデバイスにDNNをデプロイするための効率的なソリューションを提供する。
関連論文リスト
- Sequential Reservoir Computing for Efficient High-Dimensional Spatiotemporal Forecasting [1.5313142881179707]
Reservoir Computing (RC) は、バックプロパゲーションを固定された時相読み出し最適化に置き換えることで課題を軽減する。
本稿では,大規模貯水池を小さな層に分割する逐次貯留層計算(Sequential Reservoir Computing,Sequential RC)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-01-01T02:24:56Z) - Unsupervised Learning based Element Resource Allocation for Reconfigurable Intelligent Surfaces in mmWave Network [4.564546073852808]
我々は、$alpha$-fairスケジューリングフレームワークでRIS位相設定とリソース割り当てを最適化する共同最適化問題を定式化する。
入力次元を著しく低減し,計算複雑性を低減し,拡張性を高めるために,FNN(Five-layer full connected neural network)と前処理技術を組み合わせた5層ニューラルネットワークを提案する。
提案方式は計算複雑性を低減しつつ性能を向上し,反復最適化アルゴリズムよりもはるかにスケーラブルである。
論文 参考訳(メタデータ) (2025-09-03T11:56:27Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - Input Convex Lipschitz RNN: A Fast and Robust Approach for Engineering Tasks [14.835081385422653]
入力凸リプシッツリカレントニューラルネットワーク(ICLRNN)と呼ばれる新しいネットワークアーキテクチャを導入する。
このアーキテクチャは、凸性とリプシッツ連続性の利点をシームレスに統合し、高速で堅牢なニューラルネットワークベースのモデリングと最適化を可能にする。
化学プロセスのモデリングと制御、ソーラーPVシステム計画のための実世界の太陽放射予測など、実用的な技術シナリオにうまく応用されている。
論文 参考訳(メタデータ) (2024-01-15T06:26:53Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - CR-LSO: Convex Neural Architecture Optimization in the Latent Space of Graph Variational Autoencoder with Input Convex Neural Networks [6.026956571669411]
潜時空間最適化(LSO)に基づくニューラルアーキテクチャ探索(NAS)法では、離散的ニューラルアーキテクチャを連続潜時空間に埋め込むために深層生成モデルを訓練する。
本稿では,空間の学習過程を正規化することを目的とした凸性アーキテクチャ正規化空間(CRLSO)法について述べる。
3つのNASベンチマークによる実験結果から,CR-LSOは計算複雑性と性能の両面で競合評価結果が得られることが示された。
論文 参考訳(メタデータ) (2022-11-11T01:55:11Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural
Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。
提案されたSIDNNは、幅広いOPFスキームと互換性がある。
他のLearning-to-OPFスキームとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-03-27T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。