論文の概要: BHViT: Binarized Hybrid Vision Transformer
- arxiv url: http://arxiv.org/abs/2503.02394v3
- Date: Thu, 06 Mar 2025 17:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:30.966868
- Title: BHViT: Binarized Hybrid Vision Transformer
- Title(参考訳): BHViT:二元化ハイブリッドビジョントランス
- Authors: Tian Gao, Zhiyuan Zhang, Yu Zhang, Huajun Liu, Kaijie Yin, Chengzhong Xu, Hui Kong,
- Abstract要約: モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
- 参考スコア(独自算出の注目度): 53.38894971164072
- License:
- Abstract: Model binarization has made significant progress in enabling real-time and energy-efficient computation for convolutional neural networks (CNN), offering a potential solution to the deployment challenges faced by Vision Transformers (ViTs) on edge devices. However, due to the structural differences between CNN and Transformer architectures, simply applying binary CNN strategies to the ViT models will lead to a significant performance drop. To tackle this challenge, we propose BHViT, a binarization-friendly hybrid ViT architecture and its full binarization model with the guidance of three important observations. Initially, BHViT utilizes the local information interaction and hierarchical feature aggregation technique from coarse to fine levels to address redundant computations stemming from excessive tokens. Then, a novel module based on shift operations is proposed to enhance the performance of the binary Multilayer Perceptron (MLP) module without significantly increasing computational overhead. In addition, an innovative attention matrix binarization method based on quantization decomposition is proposed to evaluate the token's importance in the binarized attention matrix. Finally, we propose a regularization loss to address the inadequate optimization caused by the incompatibility between the weight oscillation in the binary layers and the Adam Optimizer. Extensive experimental results demonstrate that our proposed algorithm achieves SOTA performance among binary ViT methods.
- Abstract(参考訳): モデルバイナライゼーションは、畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にし、エッジデバイス上でのビジョントランスフォーマー(ViT)が直面するデプロイメント課題に対する潜在的な解決策を提供する。
しかし、CNNとTransformerアーキテクチャの構造的な違いのため、単純にバイナリCNN戦略をViTモデルに適用すれば、大幅なパフォーマンス低下につながる。
この課題に対処するため,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
当初、BHViTは、過剰なトークンから生じる冗長な計算に対処するために、粗いレベルから細かいレベルまで、局所的な情報相互作用と階層的な特徴集約技術を用いていた。
次に、シフト演算に基づく新しいモジュールを提案し、計算オーバーヘッドを大幅に増大させることなく、二層多層パーセプトロン(MLP)モジュールの性能を向上させる。
さらに, 量子化分解に基づく革新的注目行列バイナライゼーション法を提案し, バイナライズされた注目行列におけるトークンの重要性を評価する。
最後に,二層構造における重み振動とAdam Optimizerの不整合性に起因する不整合最適化に対処する正規化損失を提案する。
大規模な実験結果から,提案アルゴリズムはバイナリVT法におけるSOTA性能を向上することが示された。
関連論文リスト
- Binary Event-Driven Spiking Transformer [36.815359983551986]
トランスフォーマーベースのスパイキングニューラルネットワーク(SNN)は、イベント駆動型自己注意パラダイムを導入している。
本稿では,2値イベント駆動型スパイキング変換器,BESTformerを提案する。
BESTformerは、バイナライゼーションの限られた表現能力のため、完全な精度で性能が低下する。
論文 参考訳(メタデータ) (2025-01-10T12:00:11Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - FBPT: A Fully Binary Point Transformer [12.373066597900127]
本稿では,ロボット工学やモバイルデバイスの分野で広く応用され拡張される可能性を持つ,FBPT(Fully Binary Point Cloud Transformer)モデルを提案する。
32ビットの完全精度ネットワークの重みとアクティベーションを1ビットのバイナリ値に圧縮することにより、提案したバイナリポイントクラウドトランスフォーマーネットワークは、ストレージフットプリントと計算リソースの要求を大幅に削減する。
本稿の主な焦点は、バイナリポイントクラウドトランスフォーマーモジュールの使用によるパフォーマンス劣化問題に対処することである。
論文 参考訳(メタデータ) (2024-03-15T03:45:10Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - BinaryViT: Towards Efficient and Accurate Binary Vision Transformers [4.339315098369913]
ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場した。
最も強力な圧縮手法の1つとして、バイナライゼーションは、重みとアクティベーション値をpm$1として定量化することにより、ニューラルネットワークの計算を減らす。
既存のバイナライゼーション手法はCNNでは優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未検討であり、性能低下に悩まされている。
論文 参考訳(メタデータ) (2023-05-24T05:06:59Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z) - BiViT: Extremely Compressed Binary Vision Transformer [19.985314022860432]
両眼視変換器(BiViT)の地平線を推し進めるための2つの基本的な課題について提案する。
本稿では,データ分布に動的に適応し,バイナライゼーションによる誤差を低減するソフトマックス対応バイナリ化を提案する。
提案手法は,TinyImageNetデータセット上で,最先端技術に対して19.8%向上する。
論文 参考訳(メタデータ) (2022-11-14T03:36:38Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。