論文の概要: Efficient CNN-LSTM based Image Captioning using Neural Network
Compression
- arxiv url: http://arxiv.org/abs/2012.09708v1
- Date: Thu, 17 Dec 2020 16:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:40:14.874319
- Title: Efficient CNN-LSTM based Image Captioning using Neural Network
Compression
- Title(参考訳): ニューラルネットワーク圧縮を用いた効率的なCNN-LSTM画像キャプション
- Authors: Harshit Rampal, Aman Mohanty
- Abstract要約: CNN-LSTMベースの画像キャプションモデルの非従来のエンドツーエンド圧縮パイプラインを紹介します。
次に、異なる圧縮アーキテクチャがモデルに与える影響を検討し、73.1%のモデルサイズ削減を実現する圧縮アーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Neural Networks are eminent in achieving state of the art performance
on tasks under Computer Vision, Natural Language Processing and related
verticals. However, they are notorious for their voracious memory and compute
appetite which further obstructs their deployment on resource limited edge
devices. In order to achieve edge deployment, researchers have developed
pruning and quantization algorithms to compress such networks without
compromising their efficacy. Such compression algorithms are broadly
experimented on standalone CNN and RNN architectures while in this work, we
present an unconventional end to end compression pipeline of a CNN-LSTM based
Image Captioning model. The model is trained using VGG16 or ResNet50 as an
encoder and an LSTM decoder on the flickr8k dataset. We then examine the
effects of different compression architectures on the model and design a
compression architecture that achieves a 73.1% reduction in model size, 71.3%
reduction in inference time and a 7.7% increase in BLEU score as compared to
its uncompressed counterpart.
- Abstract(参考訳): 現代のニューラルネットワークは、コンピュータビジョン、自然言語処理および関連する分野のタスクにおけるアートパフォーマンスの状態を達成している。
しかし、彼らは、リソース制限されたエッジデバイスへのデプロイをさらに阻害する、猛烈なメモリと計算の食欲で悪名高い。
エッジデプロイメントを実現するために、研究者はネットワークの有効性を損なうことなく圧縮するプラニングと量子化アルゴリズムを開発した。
このような圧縮アルゴリズムはスタンドアロンのCNNおよびRNNアーキテクチャで広く実験されているが、本研究では、CNN-LSTMベースの画像キャプチャーモデルの非従来型エンドツーエンド圧縮パイプラインを示す。
このモデルは、flickr8kデータセット上のエンコーダとLSTMデコーダとしてVGG16またはResNet50を使用してトレーニングされる。
次に,異なる圧縮アーキテクチャがモデルに与える影響を調べ,モデルサイズを73.1%削減し,推論時間を71.3%削減し,非圧縮アーキテクチャに比べてbleuスコアを7.7%向上させる圧縮アーキテクチャを設計する。
関連論文リスト
- Identity Preserving Loss for Learned Image Compression [0.0]
本研究は,高圧縮率を実現するために,ドメイン固有の特徴を学習するエンドツーエンド画像圧縮フレームワークを提案する。
本稿では,CRF-23 HEVC圧縮の38%と42%のビット・パー・ピクセル(BPP)値が得られる新しいID保存再構成(IPR)ロス関数を提案する。
CRF-23 HEVC圧縮の38%の低いBPP値を保ちながら、未確認の認識モデルを用いてLFWデータセットの at-par 認識性能を示す。
論文 参考訳(メタデータ) (2022-04-22T18:01:01Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Exploring Structural Sparsity in Neural Image Compression [14.106763725475469]
本稿では,各コンボリューションチャネルの重要性を判定し,トレーニング中に空間性を導入するために,ABCM(プラグイン適応型バイナリチャネルマスキング)を提案する。
推論中、重要でないチャネルをプルーニングしてスリムネットワークを得る。
実験の結果,最大7倍の計算削減と3倍の加速は無視可能な性能低下で達成できることがわかった。
論文 参考訳(メタデータ) (2022-02-09T17:46:49Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Toward Compact Parameter Representations for Architecture-Agnostic
Neural Network Compression [26.501979992447605]
本稿では,訓練されたパラメータをコンパクトに表現・保存する観点から,圧縮について検討する。
我々は、画像記述子のために発明された極端損失圧縮法である加法量子化を利用して、パラメータをコンパクトに表現する。
我々は,MobileNet-v2,VGG-11,ResNet-50,Feature Pyramid Networks,および分類,検出,セグメンテーションタスクを訓練したPruned DNNの実験を行った。
論文 参考訳(メタデータ) (2021-11-19T17:03:11Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Joint Matrix Decomposition for Deep Convolutional Neural Networks
Compression [5.083621265568845]
多数のパラメータを持つディープ畳み込みニューラルネットワーク(CNN)は膨大な計算資源を必要とする。
そのため,近年CNNの圧縮に分解法が用いられている。
我々は,CNNを圧縮し,関節行列分解による性能劣化を軽減することを提案する。
論文 参考訳(メタデータ) (2021-07-09T12:32:10Z) - DeepCompress: Efficient Point Cloud Geometry Compression [1.808877001896346]
本稿では,ポイントクラウド圧縮のためのより効率的なディープラーニングベースのエンコーダアーキテクチャを提案する。
CENIC(Efficient Neural Image Compression)から学習した活性化関数を組み込むことで,効率と性能が劇的に向上することを示す。
提案手法は,BjontegardデルタレートとPSNR値において,ベースラインアプローチよりも小さなマージンで優れていた。
論文 参考訳(メタデータ) (2021-06-02T23:18:11Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。