論文の概要: GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples
- arxiv url: http://arxiv.org/abs/2305.07931v3
- Date: Fri, 19 May 2023 02:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 18:17:16.012890
- Title: GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples
- Title(参考訳): GSB:限られたトレーニングサンプルを用いたビジョントランスのためのグループ重ね合わせ二元化
- Authors: Tian Gao, Cheng-Zhong Xu, Le Zhang, Hui Kong
- Abstract要約: ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,これらの問題に対処するため,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
限られた数のトレーニングサンプルを持つ3つのデータセットの実験は、提案したGSBモデルが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 57.403328200532066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affected by the massive amount of parameters, ViT usually suffers from
serious overfitting problems with a relatively limited number of training
samples. In addition, ViT generally demands heavy computing resources, which
limit its deployment on resource-constrained devices. As a type of
model-compression method,model binarization is potentially a good choice to
solve the above problems. Compared with the full-precision one, the model with
the binarization method replaces complex tensor multiplication with simple
bit-wise binary operations and represents full-precision model parameters and
activations with only 1-bit ones, which potentially solves the problem of model
size and computational complexity, respectively. In this paper, we find that
the decline of the accuracy of the binary ViT model is mainly due to the
information loss of the Attention module and the Value vector. Therefore, we
propose a novel model binarization technique, called Group Superposition
Binarization (GSB), to deal with these issues. Furthermore, in order to further
improve the performance of the binarization model, we have investigated the
gradient calculation procedure in the binarization process and derived more
proper gradient calculation equations for GSB to reduce the influence of
gradient mismatch. Then, the knowledge distillation technique is introduced to
alleviate the performance degradation caused by model binarization. Experiments
on three datasets with limited numbers of training samples demonstrate that the
proposed GSB model achieves state-of-the-art performance among the binary
quantization schemes and exceeds its full-precision counterpart on some
indicators.
- Abstract(参考訳): 大量のパラメータの影響を受け、ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィット問題に悩まされる。
さらに、ViTは通常、リソース制限されたデバイスへのデプロイメントを制限する重いコンピューティングリソースを必要とする。
モデル圧縮法の一種として、モデル双対化は上記の問題を解決する良い選択である可能性がある。
完全な倍数化法と比較すると、複雑なテンソル乗算を単純なビット単位の2進演算に置き換え、全倍数モデルのパラメータとアクティベーションを1ビットのみで表現し、モデルサイズと計算複雑性の問題をそれぞれ解決する。
本稿では,バイナリViTモデルの精度の低下は,アテンションモジュールと値ベクトルの情報損失が主な原因であることを示す。
そこで本研究では,これらの問題に対処するため,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
さらに,二元化モデルの性能をさらに向上させるために,二元化過程における勾配計算手順を調査し,gsbのより適切な勾配計算式を導出し,勾配ミスマッチの影響を低減した。
次に, モデル2値化による性能劣化を緩和するために, 知識蒸留技術を導入する。
限られたトレーニングサンプル数を持つ3つのデータセットの実験では、提案したGSBモデルがバイナリ量子化スキームの最先端性能を実現し、いくつかの指標でその完全精度を上回ることが示されている。
関連論文リスト
- Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase [2.6513322539118582]
我々は、現在のAI分野における2つの重要な技術の課題と進化を探求する:ビジョントランスフォーマーモデルと大規模言語モデル(LLM)。
Vision Transformerは、イメージを小さな断片に分割することで、グローバルな情報をキャプチャするが、その高い参照数とモバイル機器へのオーバヘッド制限の配置を計算する。
LLMは自然言語処理に革命をもたらしたが、デプロイメントの課題にも直面している。
論文 参考訳(メタデータ) (2024-08-16T11:56:49Z) - LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition [4.375744277719009]
LORTSARは2つの主要なトランスフォーマーベースモデル、"Hyperformer"と"STEP-CATFormer"に適用される。
本手法は, 認識精度の劣化や性能向上などにより, モデルパラメータの数を大幅に削減することができる。
これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。
論文 参考訳(メタデータ) (2024-07-19T20:19:41Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - FBPT: A Fully Binary Point Transformer [12.373066597900127]
本稿では,ロボット工学やモバイルデバイスの分野で広く応用され拡張される可能性を持つ,FBPT(Fully Binary Point Cloud Transformer)モデルを提案する。
32ビットの完全精度ネットワークの重みとアクティベーションを1ビットのバイナリ値に圧縮することにより、提案したバイナリポイントクラウドトランスフォーマーネットワークは、ストレージフットプリントと計算リソースの要求を大幅に削減する。
本稿の主な焦点は、バイナリポイントクラウドトランスフォーマーモジュールの使用によるパフォーマンス劣化問題に対処することである。
論文 参考訳(メタデータ) (2024-03-15T03:45:10Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - BinaryViT: Towards Efficient and Accurate Binary Vision Transformers [4.339315098369913]
ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場した。
最も強力な圧縮手法の1つとして、バイナライゼーションは、重みとアクティベーション値をpm$1として定量化することにより、ニューラルネットワークの計算を減らす。
既存のバイナライゼーション手法はCNNでは優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未検討であり、性能低下に悩まされている。
論文 参考訳(メタデータ) (2023-05-24T05:06:59Z) - BiViT: Extremely Compressed Binary Vision Transformer [19.985314022860432]
両眼視変換器(BiViT)の地平線を推し進めるための2つの基本的な課題について提案する。
本稿では,データ分布に動的に適応し,バイナライゼーションによる誤差を低減するソフトマックス対応バイナリ化を提案する。
提案手法は,TinyImageNetデータセット上で,最先端技術に対して19.8%向上する。
論文 参考訳(メタデータ) (2022-11-14T03:36:38Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。