Fugu-MT 論文翻訳(概要): MonoSparse-CAM: Harnessing Monotonicity and Sparsity for Enhanced Tree Model Processing on CAMs

論文の概要: MonoSparse-CAM: Harnessing Monotonicity and Sparsity for Enhanced Tree Model Processing on CAMs

arxiv url: http://arxiv.org/abs/2407.11071v1
Date: Fri, 12 Jul 2024 20:34:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 20:00:37.486690
Title: MonoSparse-CAM: Harnessing Monotonicity and Sparsity for Enhanced Tree Model Processing on CAMs
Title（参考訳）: MonoSparse-CAM: CAMにおける木モデル処理強化のためのモノトニック性とスポーサリティの調和
Authors: Tergel Molom-Ochir, Brady Taylor, Hai, Li, Yiran Chen,
Abstract要約: 本稿では,コンテンツ適応型メモリ(CAM)に基づく計算最適化技術であるMonoSparse-CAMを紹介する。 MonoSparse-CAMはTBMLモデルスパーシリティとCAMアレイ回路を効率よく利用し、処理性能を向上させる。 CAMベースのコンピューティングにおいて,効率的なデプロイメント最適化ソリューションとしてMonoSparse-CAMを提案するとともに,TBMLモデル構造が配列空間に与える影響について検討する。
参考スコア（独自算出の注目度）: 4.036784709817802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite significant advancements in AI driven by neural networks, tree-based machine learning (TBML) models excel on tabular data. These models exhibit promising energy efficiency, and high performance, particularly when accelerated on analog content-addressable memory (aCAM) arrays. However, optimizing their hardware deployment, especially in leveraging TBML model structure and aCAM circuitry, remains challenging. In this paper, we introduce MonoSparse-CAM, a novel content-addressable memory (CAM) based computing optimization technique. MonoSparse-CAM efficiently leverages TBML model sparsity and CAM array circuits, enhancing processing performance. Our experiments show that MonoSparse-CAM reduces energy consumption by up to 28.56x compared to raw processing and 18.51x compared to existing deployment optimization techniques. Additionally, it consistently achieves at least 1.68x computational efficiency over current methods. By enabling energy-efficient CAM-based computing while preserving performance regardless of the array sparsity, MonoSparse-CAM addresses the high energy consumption problem of CAM which hinders processing of large arrays. Our contributions are twofold: we propose MonoSparse-CAM as an effective deployment optimization solution for CAM-based computing, and we investigate the impact of TBML model structure on array sparsity. This work provides crucial insights for energy-efficient TBML on hardware, highlighting a significant advancement in sustainable AI technologies.
Abstract（参考訳）: ニューラルネットワークによって駆動されるAIの大幅な進歩にもかかわらず、ツリーベース機械学習(TBML)モデルは表データに排他的である。これらのモデルは、特にアナログコンテンツ調整可能なメモリ(aCAM)アレイで加速された場合、エネルギー効率と高い性能を示す。しかし、TBMLモデル構造とaCAM回路を利用する場合、ハードウェアデプロイメントの最適化は依然として困難である。本稿では,コンテンツ適応型メモリ(CAM)に基づく計算最適化技術であるMonoSparse-CAMを紹介する。 MonoSparse-CAMはTBMLモデルとCAMアレイ回路を効率よく利用し、処理性能を向上させる。実験の結果,MonoSparse-CAMは,既存のデプロイメント最適化手法と比較して,生処理と比較して最大28.56倍,18.51倍のエネルギー消費を削減できることがわかった。さらに、現在の手法よりも少なくとも1.68倍の計算効率を実現している。 MonoSparse-CAMは、配列の幅にかかわらず性能を保ちながらエネルギー効率の良いCAMベースの計算を可能にすることにより、大規模な配列の処理を妨げるCAMの高エネルギー消費問題に対処する。 CAMベースのコンピューティングにおいて,効率的なデプロイメント最適化ソリューションとしてMonoSparse-CAMを提案するとともに,TBMLモデル構造が配列空間に与える影響について検討する。この研究は、ハードウェア上でのエネルギー効率の高いTBMLに関する重要な洞察を提供し、持続可能なAI技術の大幅な進歩を浮き彫りにしている。

関連論文リスト

Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文参考訳（メタデータ） (2024-09-27T15:48:39Z)
Efficient and Reliable Vector Similarity Search Using Asymmetric Encoding with NAND-Flash for Many-Class Few-Shot Learning [0.3796226700483906]
NANDベースのマルチビットコンテンツアドレスメモリ(MCAM)は、高密度で容量が大きいため、有望な選択肢である。その可能性にもかかわらず、MCAMは制限されたワードライン数、限定された量子化レベル、様々な文字列電流やボトルネック効果のような非理想効果といった制限に直面している。我々の統合フレームワークは、検索イテレーションを最大32倍に減らし、全体的な精度は1.58%から6.94%に向上した。
論文参考訳（メタデータ） (2024-09-12T08:29:37Z)
LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration [10.608817382813786]
混合精度行列乗算(英: Mixed-precision matrix multiplication, mpGEMM)は、より高精度な活性化を伴う低精度重みを乗算する重要な演算である。現在のハードウェアはmpGEMMをサポートしておらず、間接的かつ非効率な復号化ベースの実装をもたらす。低ビットLLM推論に最適化されたハードウェアの共同設計であるLUT Coreを紹介する。
論文参考訳（メタデータ） (2024-08-12T08:52:14Z)
Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文参考訳（メタデータ） (2024-06-23T11:28:08Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
LightCAM: A Fast and Light Implementation of Context-Aware Masking based D-TDNN for Speaker Verification [3.3800597813242628]
従来のTDNN(Time Delay Neural Networks)は、計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現している。本稿では,DSM(Deepwise Separable Convolution Module)とマルチスケール機能アグリゲーション(MFA)を併用した,高速かつ軽量なLightCAMを提案する。
論文参考訳（メタデータ） (2024-02-08T21:47:16Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。 VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-09-07T06:45:43Z)
MetaCAM: Ensemble-Based Class Activation Map [0.0]
クラスアクティベーションマップ(Class Activation Maps, CAM)は、CNNの視覚的説明法として人気が高まっている。本稿では,複数の既存CAM手法を組み合わせたアンサンブルに基づくメタCAMを提案する。メタCAMは既存のCAMよりも優れており、モデル予測に使用される画像の最も健全な領域を洗練している。
論文参考訳（メタデータ） (2023-07-31T17:20:48Z)
AMOM: Adaptive Masking over Masking for Conditional Masked Language Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文参考訳（メタデータ） (2023-03-13T20:34:56Z)
Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。 Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文参考訳（メタデータ） (2023-01-03T15:11:41Z)
Recipro-CAM: Gradient-free reciprocal class activation map [0.0]
本稿では,アクティベーションマップとネットワーク出力の相関性を利用するために,軽量なアーキテクチャと勾配のないReciprocal CAM(Recipro-CAM)を提案する。提案手法により,Score-CAMと比較してResNetファミリーの1:78～3:72%のゲインを得た。さらに、Recipro-CAMはGrad-CAMと似たサリエンシマップ生成率を示し、Score-CAMの約148倍高速である。
論文参考訳（メタデータ） (2022-09-28T13:15:03Z)
LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。 LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文参考訳（メタデータ） (2022-06-20T03:48:17Z)
Conservative Objective Models for Effective Offline Model-Based Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。 COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文参考訳（メタデータ） (2021-07-14T17:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。