Fugu-MT 論文翻訳(概要): USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks

論文の概要: USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks

arxiv url: http://arxiv.org/abs/2412.13724v1
Date: Wed, 18 Dec 2024 11:04:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.175451
Title: USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks
Title（参考訳）: USEFUSE: ディープニューラルネットワークの融合層アーキテクチャのパフォーマンス向上のためのユーティリティストライド
Authors: Muhammad Sohail Ibrahim, Muhammad Usman, Jeong-A Lee,
Abstract要約: 本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
参考スコア（独自算出の注目度）: 0.6435156676256051
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Convolutional Neural Networks (CNNs) are crucial in various applications, but their deployment on resource-constrained edge devices poses challenges. This study presents the Sum-of-Products (SOP) units for convolution, which utilize low-latency left-to-right bit-serial arithmetic to minimize response time and enhance overall performance. The study proposes a methodology for fusing multiple convolution layers to reduce off-chip memory communication and increase overall performance. An effective mechanism detects and skips inefficient convolutions after ReLU layers, minimizing power consumption without compromising accuracy. Furthermore, efficient tile movement guarantees uniform access to the fusion pyramid. An analysis demonstrates the utile stride strategy improves operational intensity. Two designs cater to varied demands: one focuses on minimal response time for mission-critical applications, and another focuses on resource-constrained devices with comparable latency. This approach notably reduced redundant computations, improving the efficiency of CNN deployment on edge devices.
Abstract（参考訳）: 畳み込みニューラルネットワーク(CNN)は、さまざまなアプリケーションにおいて不可欠だが、リソース制約のあるエッジデバイスへのデプロイメントが課題となっている。本研究では,低レイテンシな左から右へのビットシリアル演算を用いて応答時間を最小化し,全体的な性能を向上させる畳み込みのためのSum-of-Products(SOP)ユニットを提案する。本研究では,複数の畳み込み層を融合させてチップ外メモリ通信を低減し,全体的な性能を向上させる手法を提案する。有効機構は、ReLU層後の非効率な畳み込みを検出し、スキップし、精度を損なうことなく消費電力を最小限にする。さらに、効率的なタイル移動により、融合ピラミッドへの均一なアクセスが保証される。分析により, 使い捨てストライド戦略により操作強度が向上することが示された。ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。このアプローチは特に冗長な計算を削減し、エッジデバイス上でのCNNデプロイメントの効率を改善した。

関連論文リスト

Lightweight Federated Learning over Wireless Edge Networks [83.4818741890634]
Federated (FL) はネットワークエッジの代替品であるが、無線ネットワークでは代替品である。閉形式式FL収束ギャップ伝送パワー,モデルプルーニング誤差,量子化を導出する。 LTFLは、実世界のデータセットの実験において最先端のスキームよりも優れている。
論文参考訳（メタデータ） (2025-07-13T09:14:17Z)
The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文参考訳（メタデータ） (2025-05-14T08:18:55Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Communication-Efficient Federated Learning by Quantized Variance Reduction for Heterogeneous Wireless Edge Networks [55.467288506826755]
フェデレーテッド・ラーニング(FL)は、無線エッジネットワークにおけるローカル・プライバシ・アウェア・コラボレーティブ・モデルトレーニングの有効なソリューションとして認識されている。既存の通信効率の高いFLアルゴリズムは、デバイス間の大きなばらつきを低減できない。本稿では,高度分散還元方式に依存する新しい通信効率FLアルゴリズムであるFedQVRを提案する。
論文参考訳（メタデータ） (2025-01-20T04:26:21Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文参考訳（メタデータ） (2024-01-23T10:27:38Z)
Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文参考訳（メタデータ） (2023-09-12T22:28:53Z)
Multi-agent Reinforcement Learning with Graph Q-Networks for Antenna Tuning [60.94661435297309]
モバイルネットワークの規模は、手作業による介入や手作業による戦略を使ってアンテナパラメータの最適化を困難にしている。本研究では,モバイルネットワーク構成をグローバルに最適化するマルチエージェント強化学習アルゴリズムを提案する。シミュレーション環境におけるアンテナ傾き調整問題とジョイント傾き・電力制御問題に対するアルゴリズムの性能を実証的に示す。
論文参考訳（メタデータ） (2023-01-20T17:06:34Z)
Residual Local Feature Network for Efficient Super-Resolution [20.62809970985125]
本研究では,Residual Local Feature Network (RLFN)を提案する。主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使用して、機能の集約を単純化することだ。さらに,NTIRE 2022の高効率超解像問題において,第1位を獲得した。
論文参考訳（メタデータ） (2022-05-16T08:46:34Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
From DNNs to GANs: Review of efficient hardware architectures for deep learning [0.0]
ニューラルネットワークとディープラーニングが現在の研究パラダイムに影響を与え始めている。 DSPプロセッサは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成的敵ネットワーク操作を実行することができない。異なるアルゴリズムは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成対向ネットワークにおける高速なパフォーマンスに適合するDSPプロセッサを設計するために適合している。
論文参考訳（メタデータ） (2021-06-06T13:23:06Z)
ALF: Autoencoder-based Low-rank Filter-sharing for Efficient Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。 ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文参考訳（メタデータ） (2020-07-27T09:01:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。