論文の概要: MOGNET: A Mux-residual quantized Network leveraging Online-Generated weights
- arxiv url: http://arxiv.org/abs/2501.09531v1
- Date: Thu, 16 Jan 2025 13:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:07.731000
- Title: MOGNET: A Mux-residual quantized Network leveraging Online-Generated weights
- Title(参考訳): MOGNET: オンライン生成重みを利用したMux-Residual量子化ネットワーク
- Authors: Van Thien Nguyen, William Guicquero, Gilles Sicard,
- Abstract要約: MOGNETは、リソース限定のハードウェアと互換性のあるコンパクトなモデルアーキテクチャである。
類似またはより低いモデルサイズで1%まで明確なギャップを保ち、より高い精度を達成することができる。
- 参考スコア(独自算出の注目度): 2.7036595757881323
- License:
- Abstract: This paper presents a compact model architecture called MOGNET, compatible with a resource-limited hardware. MOGNET uses a streamlined Convolutional factorization block based on a combination of 2 point-wise (1x1) convolutions with a group-wise convolution in-between. To further limit the overall model size and reduce the on-chip required memory, the second point-wise convolution's parameters are on-line generated by a Cellular Automaton structure. In addition, MOGNET enables the use of low-precision weights and activations, by taking advantage of a Multiplexer mechanism with a proper Bitshift rescaling for integrating residual paths without increasing the hardware-related complexity. To efficiently train this model we also introduce a novel weight ternarization method favoring the balance between quantized levels. Experimental results show that given tiny memory budget (sub-2Mb), MOGNET can achieve higher accuracy with a clear gap up to 1% at a similar or even lower model size compared to recent state-of-the-art methods.
- Abstract(参考訳): 本稿では,資源限定型ハードウェアと互換性のあるMOGNETと呼ばれるコンパクトモデルアーキテクチャを提案する。
MOGNETは、2つのポイントワイド(1x1)畳み込みとグループワイドの畳み込みの組み合わせに基づいて、合理化された畳み込み因数分解ブロックを使用する。
モデル全体のサイズをさらに制限し、オンチップに必要なメモリを減らすため、第2のポイントワイド畳み込みのパラメータはセルオートマトン構造によって生成されるオンラインである。
さらに、MOGNETは、ハードウェア関連の複雑さを増大させることなく、残留経路を統合するための適切なBitshift再スケーリングを備えたMultiplexerメカニズムを活用することで、低精度の重み付けとアクティベーションの使用を可能にする。
このモデルを効率的にトレーニングするために、量子化レベル間のバランスを優先する新しいウェイト・ターナライズ手法も導入する。
実験結果から,MOGNET のメモリ予算が小さい場合 (sub-2Mb) は,最近の最先端手法と比較して,モデルサイズが同じあるいは低い場合に 1% のギャップで高い精度を達成できることがわかった。
関連論文リスト
- Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Quantization of Deep Neural Networks to facilitate self-correction of
weights on Phase Change Memory-based analog hardware [0.0]
乗法重みの集合を近似するアルゴリズムを開発する。
これらの重みは、性能の損失を最小限に抑えながら、元のネットワークの重みを表現することを目的としている。
その結果、オンチップパルス発生器と組み合わせると、私たちの自己補正ニューラルネットワークはアナログ認識アルゴリズムで訓練されたものと同等に機能することがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:47:25Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - AdaBin: Improving Binary Neural Networks with Adaptive Binary Sets [27.022212653067367]
本稿では,重みとアクティベーションを共に1ビット値に分割したBNN(Binary Neural Networks)について検討する。
最適二元集合を適応的に得るために、AdaBin と呼ばれる単純で効果的なアプローチを提案する。
ベンチマークモデルとデータセットの実験結果は、提案されたAdaBinが最先端のパフォーマンスを達成可能であることを示している。
論文 参考訳(メタデータ) (2022-08-17T05:43:33Z) - Learning Robust and Lightweight Model through Separable Structured
Transformations [13.208781763887947]
本稿では、畳み込みニューラルネットワークのパラメータを低減するために、完全連結層を分離可能な構造変換を提案する。
ネットワークパラメータの90%削減に成功し、ロバストな精度損失は1.5%未満である。
我々は、ImageNet、SVHN、CIFAR-100、Vision Transformerなどのデータセットに対する提案手法を評価する。
論文 参考訳(メタデータ) (2021-12-27T07:25:26Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - SME: ReRAM-based Sparse-Multiplication-Engine to Squeeze-Out Bit
Sparsity of Neural Network [18.79036546647254]
我々はSparse-Multiplication-Engine(SME)という新しいReRAMベースのディープニューラルネットワーク(DNN)アクセラレータを開発した。
まず、ビットスパースパターンを編成し、既存の量子化法に基づいてビットスパース密度を増加させる。
第2に,重みのビットをクロスバーにスライスし,周辺回路の活性化結果をスプライシングする新しい重み付けマッピング機構を提案する。
第三に、上質な押出し方式は、以前の2つのステップから高度にスパースなノンゼロでマッピングされたクロスバーを空にする。
論文 参考訳(メタデータ) (2021-03-02T13:27:15Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。