論文の概要: MonoSparse-CAM: Efficient Tree Model Processing via Monotonicity and Sparsity in CAMs
- arxiv url: http://arxiv.org/abs/2407.11071v2
- Date: Fri, 27 Dec 2024 04:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:57.053781
- Title: MonoSparse-CAM: Efficient Tree Model Processing via Monotonicity and Sparsity in CAMs
- Title(参考訳): MonoSparse-CAM: CAMにおけるモノトニック性とスパーシ性による効率的なツリーモデル処理
- Authors: Tergel Molom-Ochir, Brady Taylor, Hai Li, Yiran Chen,
- Abstract要約: CAM回路のTBML間隔と単調性を利用して処理性能を向上する新しいCAMベースの最適化手法であるMonoSparse-CAMを提案する。
以上の結果から,MonoSparse-CAMは生処理と比較して28.56倍,最先端技術と比較して18.51倍までエネルギー消費量を削減し,計算効率を少なくとも1.68倍に向上した。
- 参考スコア(独自算出の注目度): 7.987101071085804
- License:
- Abstract: While the tree-based machine learning (TBML) models exhibit superior performance compared to neural networks on tabular data and hold promise for energy-efficient acceleration using aCAM arrays, their ideal deployment on hardware with explicit exploitation of TBML structure and aCAM circuitry remains a challenging task. In this work, we present MonoSparse-CAM, a new CAM-based optimization technique that exploits TBML sparsity and monotonicity in CAM circuitry to further advance processing performance. Our results indicate that MonoSparse-CAM reduces energy consumption by upto to 28.56x compared to raw processing and by 18.51x compared to state-of-the-art techniques, while improving the efficiency of computation by at least 1.68x.
- Abstract(参考訳): ツリーベース機械学習(TBML)モデルは、表データ上のニューラルネットワークよりも優れたパフォーマンスを示し、aCAMアレイを使用したエネルギー効率の加速を約束する一方で、TBML構造とaCAM回路を明示的に活用したハードウェアへの理想的な配置は、依然として困難な課題である。
そこで本研究では, CAM回路のTBML間隔と単調性を利用して処理性能を向上する, CAMに基づく新しい最適化手法であるMonoSparse-CAMを提案する。
以上の結果から,MonoSparse-CAMは生処理と比較して28.56倍,最先端技術と比較して18.51倍までエネルギー消費量を削減し,計算効率を少なくとも1.68倍に向上した。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - LightCAM: A Fast and Light Implementation of Context-Aware Masking based
D-TDNN for Speaker Verification [3.3800597813242628]
従来のTDNN(Time Delay Neural Networks)は、計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現している。
本稿では,DSM(Deepwise Separable Convolution Module)とマルチスケール機能アグリゲーション(MFA)を併用した,高速かつ軽量なLightCAMを提案する。
論文 参考訳(メタデータ) (2024-02-08T21:47:16Z) - BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale
Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。
VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-09-07T06:45:43Z) - MetaCAM: Ensemble-Based Class Activation Map [0.0]
クラスアクティベーションマップ(Class Activation Maps, CAM)は、CNNの視覚的説明法として人気が高まっている。
本稿では,複数の既存CAM手法を組み合わせたアンサンブルに基づくメタCAMを提案する。
メタCAMは既存のCAMよりも優れており、モデル予測に使用される画像の最も健全な領域を洗練している。
論文 参考訳(メタデータ) (2023-07-31T17:20:48Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - Recipro-CAM: Gradient-free reciprocal class activation map [0.0]
本稿では,アクティベーションマップとネットワーク出力の相関性を利用するために,軽量なアーキテクチャと勾配のないReciprocal CAM(Recipro-CAM)を提案する。
提案手法により,Score-CAMと比較してResNetファミリーの1:78~3:72%のゲインを得た。
さらに、Recipro-CAMはGrad-CAMと似たサリエンシマップ生成率を示し、Score-CAMの約148倍高速である。
論文 参考訳(メタデータ) (2022-09-28T13:15:03Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。