論文の概要: FCN-Pose: A Pruned and Quantized CNN for Robot Pose Estimation for
Constrained Devices
- arxiv url: http://arxiv.org/abs/2205.13272v1
- Date: Thu, 26 May 2022 11:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:24:35.297333
- Title: FCN-Pose: A Pruned and Quantized CNN for Robot Pose Estimation for
Constrained Devices
- Title(参考訳): FCN-Pose:制約デバイスに対するロボットポス推定のためのPruned and Quantized CNN
- Authors: Marrone Silv\'erio Melo Dantas, Iago Richard Rodrigues, Assis Tiago
Oliveira Filho, Gibson Barbosa, Daniel Bezerra, Djamel F. H. Sadok, Judith
Kelner, Maria Marquezini, Ricardo Silva
- Abstract要約: 本稿では, プルーニングと量子化の圧縮手法を適用しながら, ポーズ推定のための新しいCNNを提案する。
我々はロボットアームのポーズ推定タスクを用いてアプローチを実行し、ハイエンドデバイスと制約されたデバイスで結果を比較した。
提案手法によって達成された画像フレームの処理速度は,より短い応答時間を実現する。
- 参考スコア(独自算出の注目度): 5.091917355007267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: IoT devices suffer from resource limitations, such as processor, RAM, and
disc storage. These limitations become more evident when handling demanding
applications, such as deep learning, well-known for their heavy computational
requirements. A case in point is robot pose estimation, an application that
predicts the critical points of the desired image object. One way to mitigate
processing and storage problems is compressing that deep learning application.
This paper proposes a new CNN for the pose estimation while applying the
compression techniques of pruning and quantization to reduce his demands and
improve the response time. While the pruning process reduces the total number
of parameters required for inference, quantization decreases the precision of
the floating-point. We run the approach using a pose estimation task for a
robotic arm and compare the results in a high-end device and a constrained
device. As metrics, we consider the number of Floating-point Operations Per
Second(FLOPS), the total of mathematical computations, the calculation of
parameters, the inference time, and the number of video frames processed per
second. In addition, we undertake a qualitative evaluation where we compare the
output image predicted for each pruned network with the corresponding original
one. We reduce the originally proposed network to a 70% pruning rate, implying
an 88.86% reduction in parameters, 94.45% reduction in FLOPS, and for the disc
storage, we reduced the requirement in 70% while increasing error by a mere
$1\%$. With regard input image processing, this metric increases from 11.71 FPS
to 41.9 FPS for the Desktop case. When using the constrained device, image
processing augmented from 2.86 FPS to 10.04 FPS. The higher processing rate of
image frames achieved by the proposed approach allows a much shorter response
time.
- Abstract(参考訳): IoTデバイスは、プロセッサ、RAM、ディスクストレージなどのリソース制限に悩まされている。
これらの制限は、ディープラーニングのような要求の厳しいアプリケーションを扱う際に、より明確になる。
ポイントの1つは、所望の画像オブジェクトの臨界点を予測するアプリケーションであるロボットポーズ推定である。
処理とストレージの問題を軽減する方法のひとつは、ディープラーニングアプリケーションを圧縮することです。
本稿では, プルーニングと量子化の圧縮手法を適用してポーズ推定のための新しいCNNを提案し, 要求を低減し, 応答時間を改善する。
プルーニングプロセスは推論に必要なパラメータの総数を減らすが、量子化は浮動小数点の精度を低下させる。
我々はロボットアームのポーズ推定タスクを用いてアプローチを実行し、ハイエンドデバイスと制約されたデバイスで結果を比較した。
測度として、FLOPS(Floating-point Operations Per Second)の数、数学的計算の総数、パラメータの計算、推論時間、毎秒処理されるビデオフレームの数を考える。
また,各プルーンネットワークで予測された出力画像と対応する元の画像を比較し,質的評価を行う。
当初提案していたネットワークを70%まで削減し,パラメータの88.86%削減,FLOPSの94.45%削減,ディスクストレージの要求を70%削減した。
入力画像処理に関しては、デスクトップの場合、11.71 FPSから41.9 FPSに増加する。
制約されたデバイスを使用する場合、画像処理は2.86 FPSから10.04 FPSに増強される。
提案手法によって達成された画像フレームの処理速度は,より短い応答時間を実現する。
関連論文リスト
- MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。
Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。
しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文 参考訳(メタデータ) (2024-05-28T06:50:58Z) - AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution [53.23803932357899]
我々は、処理時間を数時間から秒に短縮する最初のオンザフライ適応量子化フレームワークを導入する。
我々は,従来の適応量子化法と競合する性能を実現し,処理時間をx2000で高速化する。
論文 参考訳(メタデータ) (2024-04-04T08:37:27Z) - A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE [0.8403582577557918]
Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。
本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。
提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
論文 参考訳(メタデータ) (2024-01-05T09:32:39Z) - Efficient Single Object Detection on Image Patches with Early Exit
Enhanced High-Precision CNNs [0.0]
本稿では,RoboCup Standard Platform Leagueの文脈における移動ロボットを用いた物体検出手法を提案する。
この課題は、様々な照明条件と高速な動きによって引き起こされるぼやけた画像において、ダイナミックな物体を検出することである。
この課題に対処するために,計算に制約のあるロボットプラットフォーム用に設計された畳み込みニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-09-07T07:23:55Z) - FPGA Resource-aware Structured Pruning for Real-Time Neural Networks [3.294652922898631]
プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。
資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。
提案手法は, DSP使用率の55%から92%, BRAM使用率の81%の削減を実現する。
論文 参考訳(メタデータ) (2023-08-09T18:14:54Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - Feature Compression for Rate Constrained Object Detection on the Edge [20.18227104333772]
この問題を解決するための新たなアプローチは、ニューラルネットワークの計算をエッジサーバのコンピューティングリソースにオフロードすることだ。
本研究では、YOLOオブジェクト検出モデルの計算の一部をオフロードする「分割計算」システムについて検討する。
我々は、速度制約下でのオブジェクト検出精度を最適化するために、YOLOモデルとともに特徴圧縮および非圧縮モジュールを訓練する。
論文 参考訳(メタデータ) (2022-04-15T03:39:30Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。