論文の概要: Efficient and Reliable Vector Similarity Search Using Asymmetric Encoding with NAND-Flash for Many-Class Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2409.07832v1
- Date: Thu, 12 Sep 2024 08:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 17:18:01.286642
- Title: Efficient and Reliable Vector Similarity Search Using Asymmetric Encoding with NAND-Flash for Many-Class Few-Shot Learning
- Title(参考訳): NAND-Flashを用いた多クラスFew-Shot学習のための非対称符号化を用いた効率よく信頼性の高いベクトル類似検索
- Authors: Hao-Wei Chiang, Chi-Tse Huang, Hsiang-Yun Cheng, Po-Hao Tseng, Ming-Hsiu Lee, An-Yeu, Wu,
- Abstract要約: NANDベースのマルチビットコンテンツアドレスメモリ(MCAM)は、高密度で容量が大きいため、有望な選択肢である。
その可能性にもかかわらず、MCAMは制限されたワードライン数、限定された量子化レベル、様々な文字列電流やボトルネック効果のような非理想効果といった制限に直面している。
我々の統合フレームワークは、検索イテレーションを最大32倍に減らし、全体的な精度は1.58%から6.94%に向上した。
- 参考スコア(独自算出の注目度): 0.3796226700483906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While memory-augmented neural networks (MANNs) offer an effective solution for few-shot learning (FSL) by integrating deep neural networks with external memory, the capacity requirements and energy overhead of data movement become enormous due to the large number of support vectors in many-class FSL scenarios. Various in-memory search solutions have emerged to improve the energy efficiency of MANNs. NAND-based multi-bit content addressable memory (MCAM) is a promising option due to its high density and large capacity. Despite its potential, MCAM faces limitations such as a restricted number of word lines, limited quantization levels, and non-ideal effects like varying string currents and bottleneck effects, which lead to significant accuracy drops. To address these issues, we propose several innovative methods. First, the Multi-bit Thermometer Code (MTMC) leverages the extensive capacity of MCAM to enhance vector precision using cumulative encoding rules, thereby mitigating the bottleneck effect. Second, the Asymmetric vector similarity search (AVSS) reduces the precision of the query vector while maintaining that of the support vectors, thereby minimizing the search iterations and improving efficiency in many-class scenarios. Finally, the Hardware-Aware Training (HAT) method optimizes controller training by modeling the hardware characteristics of MCAM, thus enhancing the reliability of the system. Our integrated framework reduces search iterations by up to 32 times, and increases overall accuracy by 1.58% to 6.94%.
- Abstract(参考訳): メモリ拡張ニューラルネットワーク(MANN)は、深層ニューラルネットワークと外部メモリを統合することで、数ショット学習(FSL)に効果的なソリューションを提供するが、多くのクラスFSLシナリオにおいて、大量のサポートベクタによって、データ移動のキャパシティ要件とエネルギーオーバーヘッドが大きくなる。
様々なインメモリ検索ソリューションが登場し、MANNのエネルギー効率が向上した。
NANDベースのマルチビットコンテンツアドレスメモリ(MCAM)は、高密度で容量が大きいため、有望な選択肢である。
その可能性にもかかわらず、MCAMはワードラインの制限、量子化レベルの制限、文字列電流の変化やボトルネック効果などの非理想効果といった制限に直面しており、精度の低下につながっている。
これらの問題に対処するために、我々はいくつかの革新的な方法を提案する。
まず,Multi-bit Thermometer Code (MTMC) はMCAMの広い容量を活用し,累積符号化規則を用いてベクトル精度を向上し,ボトルネック効果を緩和する。
第2に、非対称ベクトル類似度探索(AVSS)は、サポートベクターの精度を維持しつつクエリベクターの精度を低下させ、探索イテレーションを最小化し、多くのシナリオにおける効率を向上させる。
最後に、ハードウェア・アウェア・トレーニング(HAT)法は、MCAMのハードウェア特性をモデル化することで、コントローラのトレーニングを最適化し、システムの信頼性を高める。
我々の統合フレームワークは、検索イテレーションを最大32倍に減らし、全体的な精度は1.58%から6.94%に向上した。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
マルチオブジェクトベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。
本手法は,DNNの予測精度,メモリ消費量,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Joint Deep Reinforcement Learning and Unfolding: Beam Selection and
Precoding for mmWave Multiuser MIMO with Lens Arrays [54.43962058166702]
離散レンズアレイを用いたミリ波マルチユーザマルチインプット多重出力(MU-MIMO)システムに注目が集まっている。
本研究では、DLA を用いた mmWave MU-MIMO システムのビームプリコーディング行列の共同設計について検討する。
論文 参考訳(メタデータ) (2021-01-05T03:55:04Z) - In-Memory Nearest Neighbor Search with FeFET Multi-Bit
Content-Addressable Memories [0.5661403709207713]
本稿では, 強誘電体FETに基づいて, マルチビットコンテンツ適応メモリ(MCAM)を用いて評価可能な新しい距離関数を提案する。
提案手法は,Omniglotデータセットの5方向5ショット分類タスクに対して98.34%の精度を実現する。
これは、最先端のTCAMベースの実装をイソエネルギーとイソ遅延で13%の精度で改善したことを意味する。
論文 参考訳(メタデータ) (2020-11-13T19:29:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。