論文の概要: Rethinking Generalization in American Sign Language Prediction for Edge
Devices with Extremely Low Memory Footprint
- arxiv url: http://arxiv.org/abs/2011.13741v2
- Date: Sat, 13 Feb 2021 10:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 01:21:21.476755
- Title: Rethinking Generalization in American Sign Language Prediction for Edge
Devices with Extremely Low Memory Footprint
- Title(参考訳): 極端にメモリフットプリントの少ないエッジデバイスにおけるアメリカ手話予測の一般化
- Authors: Aditya Jyoti Paul, Puranjay Mohan, Stuti Sehgal
- Abstract要約: 本稿では,ARM Cortex-M7マイクロコントローラ上でのAmerican Sign Languageのアルファベット検出アーキテクチャを提案する。
提案したモデルは約185KBの後量子化であり、推論速度は毎秒20フレームである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the boom in technical compute in the last few years, the world has
seen massive advances in artificially intelligent systems solving diverse
real-world problems. But a major roadblock in the ubiquitous acceptance of
these models is their enormous computational complexity and memory footprint.
Hence efficient architectures and training techniques are required for
deployment on extremely low resource inference endpoints. This paper proposes
an architecture for detection of alphabets in American Sign Language on an ARM
Cortex-M7 microcontroller having just 496 KB of framebuffer RAM. Leveraging
parameter quantization is a common technique that might cause varying drops in
test accuracy. This paper proposes using interpolation as augmentation amongst
other techniques as an efficient method of reducing this drop, which also helps
the model generalize well to previously unseen noisy data. The proposed model
is about 185 KB post-quantization and inference speed is 20 frames per second.
- Abstract(参考訳): ここ数年の技術計算のブームにより、世界は様々な現実世界の問題を解決する人工知能システムにおいて大きな進歩を遂げてきた。
しかし、これらのモデルがユビキタスに受け入れられる大きな障害は、計算の複雑さとメモリフットプリントである。
したがって、極めて低いリソース推論エンドポイントへのデプロイには、効率的なアーキテクチャとトレーニング技術が必要である。
本稿では,496KBのフレームバッファRAMを持つARM Cortex-M7マイクロコントローラ上でのAmerican Sign Languageのアルファベット検出アーキテクチャを提案する。
パラメータ量子化の活用は、テスト精度の様々な低下を引き起こす可能性のある一般的なテクニックである。
本稿では,提案手法の補間を他の手法の補間として用いることで,この損失を低減する手法を提案する。
提案モデルは計算後約185kbで,推論速度は毎秒20フレームである。
関連論文リスト
- Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Combining Efficient and Precise Sign Language Recognition: Good pose
estimation library is all you need [2.9005223064604078]
サイン言語認識は、一般消費者技術を持つd/deafのユーザエクスペリエンスを大幅に改善する可能性がある。
現在の手話認識アーキテクチャは通常計算量が多いため、リアルタイムに動作させるためには、堅牢なGPU装備のハードウェアが必要である。
我々はSPOTERアーキテクチャを構築し、これはこのタスクに使用される大規模モデルの性能に近いものである。
論文 参考訳(メタデータ) (2022-09-30T17:30:32Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - On-Device Training Under 256KB Memory [65.76525493087847]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Communication-Computation Efficient Device-Edge Co-Inference via AutoML [4.06604174802643]
デバイスエッジのコ推論は、リソース制約のあるモバイルデバイスとエッジサーバの間のディープニューラルネットワークを分割する。
オンデバイスモデルスパーシリティレベルと中間特徴圧縮比は、ワークロードと通信オーバーヘッドに直接的な影響を与える。
深部強化学習(DRL)に基づく新しい自動機械学習(AutoML)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:36:30Z) - Edge AI without Compromise: Efficient, Versatile and Accurate
Neurocomputing in Resistive Random-Access Memory [0.0]
我々は,RRAM CIMを用いた最初のマルチモーダルエッジAIチップであるNeuRRAMを提案する。
計算ビット精度の異なる先行技術よりも, 5 倍のエネルギー効率を 5 倍から 8 倍に向上することを示す。
この作業は、高度に効率的で再構成可能なエッジAIハードウェアプラットフォームを構築するための道を開くものだ。
論文 参考訳(メタデータ) (2021-08-17T21:08:51Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。