論文の概要: MonoSparse-CAM: Harnessing Monotonicity and Sparsity for Enhanced Tree Model Processing on CAMs
- arxiv url: http://arxiv.org/abs/2407.11071v1
- Date: Fri, 12 Jul 2024 20:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:00:37.486690
- Title: MonoSparse-CAM: Harnessing Monotonicity and Sparsity for Enhanced Tree Model Processing on CAMs
- Title(参考訳): MonoSparse-CAM: CAMにおける木モデル処理強化のためのモノトニック性とスポーサリティの調和
- Authors: Tergel Molom-Ochir, Brady Taylor, Hai, Li, Yiran Chen,
- Abstract要約: 本稿では,コンテンツ適応型メモリ(CAM)に基づく計算最適化技術であるMonoSparse-CAMを紹介する。
MonoSparse-CAMはTBMLモデルスパーシリティとCAMアレイ回路を効率よく利用し、処理性能を向上させる。
CAMベースのコンピューティングにおいて,効率的なデプロイメント最適化ソリューションとしてMonoSparse-CAMを提案するとともに,TBMLモデル構造が配列空間に与える影響について検討する。
- 参考スコア(独自算出の注目度): 4.036784709817802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in AI driven by neural networks, tree-based machine learning (TBML) models excel on tabular data. These models exhibit promising energy efficiency, and high performance, particularly when accelerated on analog content-addressable memory (aCAM) arrays. However, optimizing their hardware deployment, especially in leveraging TBML model structure and aCAM circuitry, remains challenging. In this paper, we introduce MonoSparse-CAM, a novel content-addressable memory (CAM) based computing optimization technique. MonoSparse-CAM efficiently leverages TBML model sparsity and CAM array circuits, enhancing processing performance. Our experiments show that MonoSparse-CAM reduces energy consumption by up to 28.56x compared to raw processing and 18.51x compared to existing deployment optimization techniques. Additionally, it consistently achieves at least 1.68x computational efficiency over current methods. By enabling energy-efficient CAM-based computing while preserving performance regardless of the array sparsity, MonoSparse-CAM addresses the high energy consumption problem of CAM which hinders processing of large arrays. Our contributions are twofold: we propose MonoSparse-CAM as an effective deployment optimization solution for CAM-based computing, and we investigate the impact of TBML model structure on array sparsity. This work provides crucial insights for energy-efficient TBML on hardware, highlighting a significant advancement in sustainable AI technologies.
- Abstract(参考訳): ニューラルネットワークによって駆動されるAIの大幅な進歩にもかかわらず、ツリーベース機械学習(TBML)モデルは表データに排他的である。
これらのモデルは、特にアナログコンテンツ調整可能なメモリ(aCAM)アレイで加速された場合、エネルギー効率と高い性能を示す。
しかし、TBMLモデル構造とaCAM回路を利用する場合、ハードウェアデプロイメントの最適化は依然として困難である。
本稿では,コンテンツ適応型メモリ(CAM)に基づく計算最適化技術であるMonoSparse-CAMを紹介する。
MonoSparse-CAMはTBMLモデルとCAMアレイ回路を効率よく利用し、処理性能を向上させる。
実験の結果,MonoSparse-CAMは,既存のデプロイメント最適化手法と比較して,生処理と比較して最大28.56倍,18.51倍のエネルギー消費を削減できることがわかった。
さらに、現在の手法よりも少なくとも1.68倍の計算効率を実現している。
MonoSparse-CAMは、配列の幅にかかわらず性能を保ちながらエネルギー効率の良いCAMベースの計算を可能にすることにより、大規模な配列の処理を妨げるCAMの高エネルギー消費問題に対処する。
CAMベースのコンピューティングにおいて,効率的なデプロイメント最適化ソリューションとしてMonoSparse-CAMを提案するとともに,TBMLモデル構造が配列空間に与える影響について検討する。
この研究は、ハードウェア上でのエネルギー効率の高いTBMLに関する重要な洞察を提供し、持続可能なAI技術の大幅な進歩を浮き彫りにしている。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Efficient and Reliable Vector Similarity Search Using Asymmetric Encoding with NAND-Flash for Many-Class Few-Shot Learning [0.3796226700483906]
NANDベースのマルチビットコンテンツアドレスメモリ(MCAM)は、高密度で容量が大きいため、有望な選択肢である。
その可能性にもかかわらず、MCAMは制限されたワードライン数、限定された量子化レベル、様々な文字列電流やボトルネック効果のような非理想効果といった制限に直面している。
我々の統合フレームワークは、検索イテレーションを最大32倍に減らし、全体的な精度は1.58%から6.94%に向上した。
論文 参考訳(メタデータ) (2024-09-12T08:29:37Z) - LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration [10.608817382813786]
混合精度行列乗算(英: Mixed-precision matrix multiplication, mpGEMM)は、より高精度な活性化を伴う低精度重みを乗算する重要な演算である。
現在のハードウェアはmpGEMMをサポートしておらず、間接的かつ非効率な復号化ベースの実装をもたらす。
低ビットLLM推論に最適化されたハードウェアの共同設計であるLUT Coreを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:52:14Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale
Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。
VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-09-07T06:45:43Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。