論文の概要: MonoSparse-CAM: Harnessing Monotonicity and Sparsity for Enhanced Tree Model Processing on CAMs
- arxiv url: http://arxiv.org/abs/2407.11071v1
- Date: Fri, 12 Jul 2024 20:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:00:37.486690
- Title: MonoSparse-CAM: Harnessing Monotonicity and Sparsity for Enhanced Tree Model Processing on CAMs
- Title(参考訳): MonoSparse-CAM: CAMにおける木モデル処理強化のためのモノトニック性とスポーサリティの調和
- Authors: Tergel Molom-Ochir, Brady Taylor, Hai, Li, Yiran Chen,
- Abstract要約: 本稿では,コンテンツ適応型メモリ(CAM)に基づく計算最適化技術であるMonoSparse-CAMを紹介する。
MonoSparse-CAMはTBMLモデルスパーシリティとCAMアレイ回路を効率よく利用し、処理性能を向上させる。
CAMベースのコンピューティングにおいて,効率的なデプロイメント最適化ソリューションとしてMonoSparse-CAMを提案するとともに,TBMLモデル構造が配列空間に与える影響について検討する。
- 参考スコア(独自算出の注目度): 4.036784709817802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in AI driven by neural networks, tree-based machine learning (TBML) models excel on tabular data. These models exhibit promising energy efficiency, and high performance, particularly when accelerated on analog content-addressable memory (aCAM) arrays. However, optimizing their hardware deployment, especially in leveraging TBML model structure and aCAM circuitry, remains challenging. In this paper, we introduce MonoSparse-CAM, a novel content-addressable memory (CAM) based computing optimization technique. MonoSparse-CAM efficiently leverages TBML model sparsity and CAM array circuits, enhancing processing performance. Our experiments show that MonoSparse-CAM reduces energy consumption by up to 28.56x compared to raw processing and 18.51x compared to existing deployment optimization techniques. Additionally, it consistently achieves at least 1.68x computational efficiency over current methods. By enabling energy-efficient CAM-based computing while preserving performance regardless of the array sparsity, MonoSparse-CAM addresses the high energy consumption problem of CAM which hinders processing of large arrays. Our contributions are twofold: we propose MonoSparse-CAM as an effective deployment optimization solution for CAM-based computing, and we investigate the impact of TBML model structure on array sparsity. This work provides crucial insights for energy-efficient TBML on hardware, highlighting a significant advancement in sustainable AI technologies.
- Abstract(参考訳): ニューラルネットワークによって駆動されるAIの大幅な進歩にもかかわらず、ツリーベース機械学習(TBML)モデルは表データに排他的である。
これらのモデルは、特にアナログコンテンツ調整可能なメモリ(aCAM)アレイで加速された場合、エネルギー効率と高い性能を示す。
しかし、TBMLモデル構造とaCAM回路を利用する場合、ハードウェアデプロイメントの最適化は依然として困難である。
本稿では,コンテンツ適応型メモリ(CAM)に基づく計算最適化技術であるMonoSparse-CAMを紹介する。
MonoSparse-CAMはTBMLモデルとCAMアレイ回路を効率よく利用し、処理性能を向上させる。
実験の結果,MonoSparse-CAMは,既存のデプロイメント最適化手法と比較して,生処理と比較して最大28.56倍,18.51倍のエネルギー消費を削減できることがわかった。
さらに、現在の手法よりも少なくとも1.68倍の計算効率を実現している。
MonoSparse-CAMは、配列の幅にかかわらず性能を保ちながらエネルギー効率の良いCAMベースの計算を可能にすることにより、大規模な配列の処理を妨げるCAMの高エネルギー消費問題に対処する。
CAMベースのコンピューティングにおいて,効率的なデプロイメント最適化ソリューションとしてMonoSparse-CAMを提案するとともに,TBMLモデル構造が配列空間に与える影響について検討する。
この研究は、ハードウェア上でのエネルギー効率の高いTBMLに関する重要な洞察を提供し、持続可能なAI技術の大幅な進歩を浮き彫りにしている。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - LightCAM: A Fast and Light Implementation of Context-Aware Masking based
D-TDNN for Speaker Verification [3.3800597813242628]
従来のTDNN(Time Delay Neural Networks)は、計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現している。
本稿では,DSM(Deepwise Separable Convolution Module)とマルチスケール機能アグリゲーション(MFA)を併用した,高速かつ軽量なLightCAMを提案する。
論文 参考訳(メタデータ) (2024-02-08T21:47:16Z) - BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale
Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。
VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-09-07T06:45:43Z) - MetaCAM: Ensemble-Based Class Activation Map [0.0]
クラスアクティベーションマップ(Class Activation Maps, CAM)は、CNNの視覚的説明法として人気が高まっている。
本稿では,複数の既存CAM手法を組み合わせたアンサンブルに基づくメタCAMを提案する。
メタCAMは既存のCAMよりも優れており、モデル予測に使用される画像の最も健全な領域を洗練している。
論文 参考訳(メタデータ) (2023-07-31T17:20:48Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - Recipro-CAM: Gradient-free reciprocal class activation map [0.0]
本稿では,アクティベーションマップとネットワーク出力の相関性を利用するために,軽量なアーキテクチャと勾配のないReciprocal CAM(Recipro-CAM)を提案する。
提案手法により,Score-CAMと比較してResNetファミリーの1:78~3:72%のゲインを得た。
さらに、Recipro-CAMはGrad-CAMと似たサリエンシマップ生成率を示し、Score-CAMの約148倍高速である。
論文 参考訳(メタデータ) (2022-09-28T13:15:03Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。