論文の概要: Algorithm and Hardware Co-Design of Energy-Efficient LSTM Networks for
Video Recognition with Hierarchical Tucker Tensor Decomposition
- arxiv url: http://arxiv.org/abs/2212.02046v1
- Date: Mon, 5 Dec 2022 05:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:24:10.214951
- Title: Algorithm and Hardware Co-Design of Energy-Efficient LSTM Networks for
Video Recognition with Hierarchical Tucker Tensor Decomposition
- Title(参考訳): 階層型タッカーテンソル分解によるビデオ認識のためのエネルギー効率の良いLSTMネットワークのアルゴリズムとハードウェア共設計
- Authors: Yu Gong, Miao Yin, Lingyi Huang, Chunhua Deng, Yang Sui, Bo Yuan
- Abstract要約: 長期記憶(Long Short-term memory、LSTM)は、シーケンス解析やモデリングアプリケーションで広く使われている強力なディープニューラルネットワークである。
本稿では,高性能エネルギー効率LSTMネットワークに向けたアルゴリズムとハードウェアの共同設計を提案する。
- 参考スコア(独自算出の注目度): 22.502146009817416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long short-term memory (LSTM) is a type of powerful deep neural network that
has been widely used in many sequence analysis and modeling applications.
However, the large model size problem of LSTM networks make their practical
deployment still very challenging, especially for the video recognition tasks
that require high-dimensional input data. Aiming to overcome this limitation
and fully unlock the potentials of LSTM models, in this paper we propose to
perform algorithm and hardware co-design towards high-performance
energy-efficient LSTM networks. At algorithm level, we propose to develop fully
decomposed hierarchical Tucker (FDHT) structure-based LSTM, namely FDHT-LSTM,
which enjoys ultra-low model complexity while still achieving high accuracy. In
order to fully reap such attractive algorithmic benefit, we further develop the
corresponding customized hardware architecture to support the efficient
execution of the proposed FDHT-LSTM model. With the delicate design of memory
access scheme, the complicated matrix transformation can be efficiently
supported by the underlying hardware without any access conflict in an
on-the-fly way. Our evaluation results show that both the proposed
ultra-compact FDHT-LSTM models and the corresponding hardware accelerator
achieve very high performance. Compared with the state-of-the-art compressed
LSTM models, FDHT-LSTM enjoys both order-of-magnitude reduction in model size
and significant accuracy improvement across different video recognition
datasets. Meanwhile, compared with the state-of-the-art tensor decomposed
model-oriented hardware TIE, our proposed FDHT-LSTM architecture achieves
better performance in throughput, area efficiency and energy efficiency,
respectively on LSTM-Youtube workload. For LSTM-UCF workload, our proposed
design also outperforms TIE with higher throughput, higher energy efficiency
and comparable area efficiency.
- Abstract(参考訳): LSTM(Long Short-term memory)は、多くのシーケンス解析やモデリングアプリケーションで広く使われている強力なディープニューラルネットワークの一種である。
しかし、LSTMネットワークの大規模なモデルサイズ問題は、特に高次元入力データを必要とするビデオ認識タスクにおいて、その実用的展開を非常に困難にしている。
本稿では,この制限を克服し,LSTMモデルの可能性を完全に解き放つことを目的として,高性能エネルギー効率LSTMネットワークに向けたアルゴリズムとハードウェア共同設計を提案する。
アルゴリズムレベルでは、完全に分解された階層型タッカー(FDHT)構造型LSTM(FDHT-LSTM)を開発することを提案する。
このような魅力的なアルゴリズムの利点を完全に享受するために、提案したFDHT-LSTMモデルの効率的な実行を支援するために、対応するカスタマイズハードウェアアーキテクチャをさらに発展させる。
メモリアクセススキームの繊細な設計により、複雑な行列変換は、オンザフライでアクセス競合なく、基盤となるハードウェアで効率的にサポートできる。
評価の結果,提案する超コンパクトFDHT-LSTMモデルと対応するハードウェアアクセラレーションの両者が高い性能を達成できた。
最先端の圧縮LSTMモデルと比較すると、FDHT-LSTMはモデルサイズのオーダー・オブ・マグニチュード削減と、異なるビデオ認識データセット間の大幅な精度向上の両方を享受する。
一方,最先端のテンソル分解型モデル指向ハードウェアと比べ,提案するfdht-lstmアーキテクチャは,lstm-youtubeワークロードにおいてスループット,面積効率,エネルギー効率が向上する。
LSTM-UCFのワークロードに対して,提案手法はTIEよりも高いスループット,エネルギー効率,面積効率に優れる。
関連論文リスト
- Unlocking the Power of LSTM for Long Term Time Series Forecasting [27.245021350821638]
本稿では, sLSTM 上に実装したP-sLSTM という単純なアルゴリズムを提案する。
これらの改良により、TSFにおけるsLSTMの性能が大幅に向上し、最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-08-19T13:59:26Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video
Prediction Domain [8.216911980865902]
既存のRNNモデルは、積み重ねレイヤーのみによって、マルチスケールの機能を得ることができる。
本稿では,マルチスケールの観点からMS-LSTMを完全に提案する。
理論的にはMS-LSTMとそのコンポーネントのトレーニングコストと性能を理論的に分析する。
論文 参考訳(メタデータ) (2023-04-16T08:25:02Z) - LiteLSTM Architecture Based on Weights Sharing for Recurrent Neural
Networks [1.1602089225841632]
長期記憶(Long Short-term memory、LSTM)は、シーケンシャルデータを学習するための堅牢なリカレントニューラルネットワークアーキテクチャの1つである。
本稿では,LiteLSTMアーキテクチャを提案する。
提案したLiteLSTMは、計算予算を小さくしながら、他の最先端のリカレントアーキテクチャに匹敵する精度を持つ。
論文 参考訳(メタデータ) (2023-01-12T03:39:59Z) - Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs [1.7969777786551424]
Spiking Neural Networks(SNN)は、複雑なタスクのための魅力的なテンポラルコンピューティングパラダイムビジョンとして登場した。
そこで本研究では,新規な長期記憶ネットワーク(LSTM)の学習フレームワークを提案する。
rev-to-SNN変換フレームワーク、続いてSNNトレーニング。
我々は、時間的M、Google Speech Commands(GSC)データセット、異なるLSTMアーキテクチャ上のUCIスマートフォンなど、逐次学習タスクに関するフレームワークを評価した。
論文 参考訳(メタデータ) (2022-10-23T04:10:27Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Compressing LSTM Networks by Matrix Product Operators [7.395226141345625]
Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。
ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。
LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-22T11:50:06Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。