論文の概要: End-to-End Supermask Pruning: Learning to Prune Image Captioning Models
- arxiv url: http://arxiv.org/abs/2110.03298v1
- Date: Thu, 7 Oct 2021 09:34:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:14:05.860449
- Title: End-to-End Supermask Pruning: Learning to Prune Image Captioning Models
- Title(参考訳): エンド・ツー・エンドのsupermask pruning: 画像キャプションモデルへの学習
- Authors: Jia Huei Tan, Chee Seng Chan, Joon Huang Chuah
- Abstract要約: 80%から95%のスパースネットワークが、その密度の高いネットワークにマッチするか、より優れているかを示す。
Up-Down と Object Relation Transformer のコードと事前訓練されたモデルは、MS-COCO データセット上で CIDEr スコア >120 を達成することができる。
- 参考スコア(独自算出の注目度): 17.00974730372399
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the advancement of deep models, research work on image captioning has
led to a remarkable gain in raw performance over the last decade, along with
increasing model complexity and computational cost. However, surprisingly works
on compression of deep networks for image captioning task has received little
to no attention. For the first time in image captioning research, we provide an
extensive comparison of various unstructured weight pruning methods on three
different popular image captioning architectures, namely Soft-Attention,
Up-Down and Object Relation Transformer. Following this, we propose a novel
end-to-end weight pruning method that performs gradual sparsification based on
weight sensitivity to the training loss. The pruning schemes are then extended
with encoder pruning, where we show that conducting both decoder pruning and
training simultaneously prior to the encoder pruning provides good overall
performance. Empirically, we show that an 80% to 95% sparse network (up to 75%
reduction in model size) can either match or outperform its dense counterpart.
The code and pre-trained models for Up-Down and Object Relation Transformer
that are capable of achieving CIDEr scores >120 on the MS-COCO dataset but with
only 8.7 MB and 14.5 MB in model size (size reduction of 96% and 94%
respectively against dense versions) are publicly available at
https://github.com/jiahuei/sparse-image-captioning.
- Abstract(参考訳): 深層モデルの発展に伴い、画像キャプションの研究は、モデルの複雑さと計算コストの増加とともに、過去10年間で生の性能が著しく向上した。
しかし、画像キャプションタスクのためのディープネットワークの圧縮に関する驚くべき研究はほとんど注目されていない。
画像キャプション研究で初めて,ソフトアテンション,アップダウン,オブジェクト関係トランスという,3種類の人気画像キャプションアーキテクチャにおいて,様々な非構造化重み追及手法を広範囲に比較した。
そこで,本研究では,トレーニング損失に対する重み感受性に基づいて段階的スパース化を行う新しいエンド・ツー・エンド重みプルーニング法を提案する。
次に, プルーニング方式をエンコーダプルーニングで拡張し, エンコーダプルーニングに先立ってデコーダプルーニングとトレーニングを同時に行うことにより, 全体的な性能が向上することを示す。
実験では、80%から95%のスパースネットワーク(モデルサイズを最大75%削減する)が、その密集したネットワークとマッチするか、より優れています。
CIDErスコアを達成できるUp-DownとObject Relation Transformerのコードおよび事前訓練されたモデルは、MS-COCOデータセットで120まで達成できるが、モデルサイズは8.7MBと14.5MB(それぞれ密度の高いバージョンに対して96%と94%)しかなく、https://github.com/jiahuei/sparse-image-captioningで公開されている。
関連論文リスト
- Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion [3.399289369740637]
本稿では,安定拡散2号の訓練後刈り込みに関する先駆的な研究について述べる。
テキスト・ツー・イメージ領域におけるモデル圧縮に対する重要なニーズに対処する。
本稿では,テキストエンコーダを47.5%,拡散生成器を35%にプルークする最適プルーニング構成を提案する。
論文 参考訳(メタデータ) (2024-11-22T18:29:37Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Structured Pruning is All You Need for Pruning CNNs at Initialization [38.88730369884401]
プルーニングは畳み込みニューラルネットワーク(CNN)のモデルサイズと計算コストを削減する一般的な手法である
ハードウェア効率の良いモデル圧縮方式であるPreCroppingを提案する。
重み付けと比較して, 提案手法は, 精度を犠牲にすることなく, 記憶と計算の両面において規則的で密度が高い。
論文 参考訳(メタデータ) (2022-03-04T19:54:31Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。