論文の概要: BiViT: Extremely Compressed Binary Vision Transformer
- arxiv url: http://arxiv.org/abs/2211.07091v2
- Date: Thu, 5 Oct 2023 07:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 23:14:22.347216
- Title: BiViT: Extremely Compressed Binary Vision Transformer
- Title(参考訳): BiViT:極端に圧縮されたバイナリビジョントランス
- Authors: Yefei He, Zhenyu Lou, Luoming Zhang, Jing Liu, Weijia Wu, Hong Zhou,
Bohan Zhuang
- Abstract要約: 両眼視変換器(BiViT)の地平線を推し進めるための2つの基本的な課題について提案する。
本稿では,データ分布に動的に適応し,バイナライゼーションによる誤差を低減するソフトマックス対応バイナリ化を提案する。
提案手法は,TinyImageNetデータセット上で,最先端技術に対して19.8%向上する。
- 参考スコア(独自算出の注目度): 19.985314022860432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model binarization can significantly compress model size, reduce energy
consumption, and accelerate inference through efficient bit-wise operations.
Although binarizing convolutional neural networks have been extensively
studied, there is little work on exploring binarization of vision Transformers
which underpin most recent breakthroughs in visual recognition. To this end, we
propose to solve two fundamental challenges to push the horizon of Binary
Vision Transformers (BiViT). First, the traditional binary method does not take
the long-tailed distribution of softmax attention into consideration, bringing
large binarization errors in the attention module. To solve this, we propose
Softmax-aware Binarization, which dynamically adapts to the data distribution
and reduces the error caused by binarization. Second, to better preserve the
information of the pretrained model and restore accuracy, we propose a
Cross-layer Binarization scheme that decouples the binarization of
self-attention and multi-layer perceptrons (MLPs), and Parameterized Weight
Scales which introduce learnable scaling factors for weight binarization.
Overall, our method performs favorably against state-of-the-arts by 19.8% on
the TinyImageNet dataset. On ImageNet, our BiViT achieves a competitive 75.6%
Top-1 accuracy over Swin-S model. Additionally, on COCO object detection, our
method achieves an mAP of 40.8 with a Swin-T backbone over Cascade Mask R-CNN
framework.
- Abstract(参考訳): モデルバイナライゼーションは、モデルサイズを著しく圧縮し、エネルギー消費を削減し、効率的なビット演算によって推論を加速することができる。
二項化畳み込みニューラルネットワークは広く研究されているが、視覚認識における最新のブレークスルーを支える視覚変換器の双項化を探求する研究はほとんどない。
この目的のために,両眼視変換器(BiViT)の水平方向を推し進めるための2つの基本的な課題を提案する。
第一に、従来の二分法はソフトマックスの長期分布を考慮に入れず、アテンションモジュールに大きな二項化誤差をもたらす。
そこで本研究では,データ分布に動的に適応し,二項化による誤差を低減するソフトマックス対応バイナリ化を提案する。
次に,事前学習したモデルの情報をよりよく保存し,精度を回復するために,自己結合と多層パーセプトロン(mlps)の双対化を分離するクロスレイヤー二元化スキームと,学習可能な重み付け因子を導入したパラメータ化ウェイトスケールを提案する。
全体として、この手法はTinyImageNetデータセットで19.8%向上した。
ImageNetでは、私たちのBiViTはSwin-Sモデルよりも75.6%のTop-1精度を実現しています。
さらに,COCOオブジェクト検出では,カスケードマスクR-CNNフレームワーク上でSwin-Tバックボーンを用いて40.8mAPを達成する。
関連論文リスト
- BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。
BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文 参考訳(メタデータ) (2024-11-15T16:46:04Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - BinaryViT: Towards Efficient and Accurate Binary Vision Transformers [4.339315098369913]
ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場した。
最も強力な圧縮手法の1つとして、バイナライゼーションは、重みとアクティベーション値をpm$1として定量化することにより、ニューラルネットワークの計算を減らす。
既存のバイナライゼーション手法はCNNでは優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未検討であり、性能低下に悩まされている。
論文 参考訳(メタデータ) (2023-05-24T05:06:59Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Bimodal Distributed Binarized Neural Networks [3.0778860202909657]
しかし、バイナリ化技術は、完全精度のものと比べれば、不適格な性能劣化に悩まされる。
バイモーダル分散バイナライゼーション法(メソッド名)を提案する。
これにより、ネットワーク重みのバイモーダルな分布がクルトーシス正規化によって引き起こされる。
論文 参考訳(メタデータ) (2022-04-05T06:07:05Z) - Binarized Weight Error Networks With a Transition Regularization Term [4.56877715768796]
本論文では,資源効率の高いニューラル構造のための新しい重み付き重みネットワーク(BT)を提案する。
提案モデルでは, 近似誤差を考慮した重みの2値表現を, 追加項で推定する。
全てのしきい値に基づく二値精度ネットワークに適した新しい正規化項が導入された。
論文 参考訳(メタデータ) (2021-05-09T10:11:26Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。