論文の概要: Gated Compression Layers for Efficient Always-On Models
- arxiv url: http://arxiv.org/abs/2303.08970v1
- Date: Wed, 15 Mar 2023 22:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:41:03.726291
- Title: Gated Compression Layers for Efficient Always-On Models
- Title(参考訳): 効率的な常時オンモデルのためのゲーテッド圧縮層
- Authors: Haiguang Li, Trausti Thormundsson, Ivan Poupyrev, Nicholas Gillian
- Abstract要約: 本稿では,既存のニューラルネットワークアーキテクチャをGated Neural Networksに変換するために適用可能な,新しいGated Compression層を提案する。
提案するGated Compression層は、負のサンプルの96%を効果的に停止し、正のサンプルの97%を圧縮し、モデルの精度を維持または改善する。
- 参考スコア(独自算出の注目度): 1.5612040984769857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile and embedded machine learning developers frequently have to compromise
between two inferior on-device deployment strategies: sacrifice accuracy and
aggressively shrink their models to run on dedicated low-power cores; or
sacrifice battery by running larger models on more powerful compute cores such
as neural processing units or the main application processor. In this paper, we
propose a novel Gated Compression layer that can be applied to transform
existing neural network architectures into Gated Neural Networks. Gated Neural
Networks have multiple properties that excel for on-device use cases that help
significantly reduce power, boost accuracy, and take advantage of heterogeneous
compute cores. We provide results across five public image and audio datasets
that demonstrate the proposed Gated Compression layer effectively stops up to
96% of negative samples, compresses 97% of positive samples, while maintaining
or improving model accuracy.
- Abstract(参考訳): モバイルと組み込み機械学習の開発者は、正確さを犠牲にしてモデルを積極的に縮小して専用の低消費電力コア上で動作させるという、2つの劣ったオンデバイスデプロイメント戦略と、ニューラルネットワークユニットやメインアプリケーションプロセッサのようなより強力な計算コア上でより大きなモデルを走らせることで、バッテリーを犠牲にする必要がある。
本稿では,既存のニューラルネットワークアーキテクチャをGated Neural Networksに変換するために適用可能な,新しいGated Compression層を提案する。
Gated Neural Networksには、デバイス上のユースケースに優れた複数の特性があり、消費電力を大幅に削減し、精度を高め、不均一な計算コアを活用する。
提案するゲート圧縮層は, 最大96%の負のサンプルを効果的に停止し, 97%の正のサンプルを圧縮し, モデルの精度を維持し, 向上させる。
関連論文リスト
- Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Enhancing User Experience in On-Device Machine Learning with Gated Compression Layers [0.0]
オンデバイス機械学習(ODML)は強力なエッジアプリケーションを実現するが、リソース制約のあるデバイスにとって電力消費は依然として重要な課題である。
本研究は,パワーを保ちながらODMLモデル性能を向上させるため,GC(Gated Compression)層の利用に焦点を当てる。
GCレイヤは、ニューラルネットワーク内のニューロンの活性化を選択的にゲーティングし、非必要入力を効果的にフィルタリングすることで、データフローを動的に制御する。
論文 参考訳(メタデータ) (2024-05-02T21:18:06Z) - NCTV: Neural Clamping Toolkit and Visualization for Neural Network
Calibration [66.22668336495175]
ニューラルネットワークのキャリブレーションに対する考慮の欠如は、人間から信頼を得ることはないだろう。
我々はNeural Clamping Toolkitを紹介した。これは開発者が最先端のモデルに依存しないキャリブレーションモデルを採用するのを支援するために設計された最初のオープンソースフレームワークである。
論文 参考訳(メタデータ) (2022-11-29T15:03:05Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Self-Compression in Bayesian Neural Networks [0.9176056742068814]
ベイジアンフレームワークによるネットワーク圧縮に関する新たな知見を提案する。
ベイズニューラルネットワークがモデルパラメータの冗長性を自動的に検出し,自己圧縮を可能にすることを示す。
実験の結果,ネットワーク自体が特定したパラメータを削除することで,ネットワークアーキテクチャの圧縮に成功できることが示唆された。
論文 参考訳(メタデータ) (2021-11-10T21:19:40Z) - Communication-Efficient Separable Neural Network for Distributed
Inference on Edge Devices [2.28438857884398]
本稿では,分散推論のためのニューラルネットワークを分離するために,モデル並列性を利用する新しい手法を提案する。
デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-03T19:30:28Z) - Compression-aware Projection with Greedy Dimension Reduction for
Convolutional Neural Network Activations [3.6188659868203388]
分類精度と圧縮比のトレードオフを改善するための圧縮対応投影システムを提案する。
提案手法は,MobileNetV2/ResNet18/VGG16の精度低下により2.91x5.97xのメモリアクセスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2021-10-17T14:02:02Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。