論文の概要: High-Fidelity Differential-information Driven Binary Vision Transformer
- arxiv url: http://arxiv.org/abs/2507.02222v1
- Date: Thu, 03 Jul 2025 00:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.384535
- Title: High-Fidelity Differential-information Driven Binary Vision Transformer
- Title(参考訳): 高忠実微分情報駆動二元視覚変換器
- Authors: Tian Gao, Zhiyuan Zhang, Kaijie Yin, Xu-Cheng Zhong, Hui Kong,
- Abstract要約: ビジョントランスフォーマーのバイナリ化(ViT)は、高い計算/ストレージ要求とエッジデバイスデプロイメントの制約の間のトレードオフに対処する、有望なアプローチを提供する。
本稿では,従来の ViT アーキテクチャと計算効率を両立させながら,高情報化が可能な新しいバイナリ ViT である DIDB-ViT を提案する。
- 参考スコア(独自算出の注目度): 38.19452875887032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The binarization of vision transformers (ViTs) offers a promising approach to addressing the trade-off between high computational/storage demands and the constraints of edge-device deployment. However, existing binary ViT methods often suffer from severe performance degradation or rely heavily on full-precision modules. To address these issues, we propose DIDB-ViT, a novel binary ViT that is highly informative while maintaining the original ViT architecture and computational efficiency. Specifically, we design an informative attention module incorporating differential information to mitigate information loss caused by binarization and enhance high-frequency retention. To preserve the fidelity of the similarity calculations between binary Q and K tensors, we apply frequency decomposition using the discrete Haar wavelet and integrate similarities across different frequencies. Additionally, we introduce an improved RPReLU activation function to restructure the activation distribution, expanding the model's representational capacity. Experimental results demonstrate that our DIDB-ViT significantly outperforms state-of-the-art network quantization methods in multiple ViT architectures, achieving superior image classification and segmentation performance.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)のバイナライゼーションは、高い計算/ストレージ要求とエッジデバイスデプロイメントの制約との間のトレードオフに対処する、有望なアプローチを提供する。
しかし、既存のバイナリViTメソッドは、しばしばパフォーマンスの悪化に悩まされるか、フル精度モジュールに大きく依存する。
このような問題に対処するため,本論文では,元のViTアーキテクチャと計算効率を維持しつつ,高い情報を提供する新しいバイナリViTであるDIDB-ViTを提案する。
具体的には,二項化による情報損失を軽減し,高周波保持率を高めるために,差分情報を組み込んだ情報処理モジュールを設計する。
2値QとKのテンソル間の類似性計算の忠実性を維持するため、離散Haarウェーブレットを用いて周波数分解を行い、異なる周波数にわたって類似性を統合する。
さらに、アクティベーション分布を再構成し、モデルの表現能力を拡張するために、改良されたRPReLUアクティベーション関数を導入する。
実験結果から,DIDB-ViTは複数のViTアーキテクチャにおいて最先端のネットワーク量子化手法よりも優れ,画像分類やセグメンテーション性能に優れることがわかった。
関連論文リスト
- BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - BinaryViT: Towards Efficient and Accurate Binary Vision Transformers [4.339315098369913]
ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場した。
最も強力な圧縮手法の1つとして、バイナライゼーションは、重みとアクティベーション値をpm$1として定量化することにより、ニューラルネットワークの計算を減らす。
既存のバイナライゼーション手法はCNNでは優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未検討であり、性能低下に悩まされている。
論文 参考訳(メタデータ) (2023-05-24T05:06:59Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。