論文の概要: HAViT: Historical Attention Vision Transformer
- arxiv url: http://arxiv.org/abs/2603.18585v1
- Date: Thu, 19 Mar 2026 07:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.015778
- Title: HAViT: Historical Attention Vision Transformer
- Title(参考訳): HAViT: 歴史的注意力変換器
- Authors: Swarnendu Banik, Manish Das, Shiv Ram Dubey, Satish Kumar Singh,
- Abstract要約: 視覚変換器はコンピュータビジョンに優れているが、その注意機構は層間で独立して動作する。
本稿では,過去の注目行列を保存・統合する多層アテンション伝搬法を提案する。
このアプローチは、トランスフォーマー階層全体にわたる注意パターンの進歩的な洗練を可能にする。
- 参考スコア(独自算出の注目度): 7.419725234099727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have excelled in computer vision but their attention mechanisms operate independently across layers, limiting information flow and feature learning. We propose an effective cross-layer attention propagation method that preserves and integrates historical attention matrices across encoder layers, offering a principled refinement of inter-layer information flow in Vision Transformers. This approach enables progressive refinement of attention patterns throughout the transformer hierarchy, enhancing feature acquisition and optimization dynamics. The method requires minimal architectural changes, adding only attention matrix storage and blending operations. Comprehensive experiments on CIFAR-100 and TinyImageNet demonstrate consistent accuracy improvements, with ViT performance increasing from 75.74% to 77.07% on CIFAR-100 (+1.33%) and from 57.82% to 59.07% on TinyImageNet (+1.25%). Cross-architecture validation shows similar gains across transformer variants, with CaiT showing 1.01% enhancement. Systematic analysis identifies the blending hyperparameter of historical attention (alpha = 0.45) as optimal across all configurations, providing the ideal balance between current and historical attention information. Random initialization consistently outperforms zero initialization, indicating that diverse initial attention patterns accelerate convergence and improve final performance. Our code is publicly available at https://github.com/banik-s/HAViT.
- Abstract(参考訳): 視覚変換器はコンピュータビジョンに優れているが、その注意機構は、情報フローや特徴学習を制限し、レイヤー間で独立して機能する。
エンコーダ層にまたがる過去の注目行列を保存・統合し,視覚変換器における層間情報フローの原理的改善を実現する,効果的な層間アテンション伝搬手法を提案する。
このアプローチにより、トランスフォーマー階層全体の注意パターンの進歩的な改善が可能になり、機能獲得と最適化のダイナミクスが強化される。
この方法は最小限のアーキテクチャ変更を必要とし、注意マトリックスストレージとブレンディング操作のみを追加する。
CIFAR-100とTinyImageNetの総合的な実験では、CIFAR-100では75.74%から77.07%(+1.33%)、TinyImageNetでは57.82%から59.07%(+1.25%)に向上した。
クロスアーキテクチャ検証は変圧器の変種間でも同様の利得を示し、CaiTは1.01%の強化を示している。
システム分析は、歴史的注意の混合ハイパーパラメータ(alpha = 0.45)を全ての構成で最適とし、現在の注意情報と歴史的注意情報の理想的なバランスを与える。
ランダム初期化はゼロ初期化を一貫して上回り、様々な初期注意パターンが収束を加速し、最終的なパフォーマンスを改善することを示す。
私たちのコードはhttps://github.com/banik-s/HAViT.comで公開されています。
関連論文リスト
- A Transformer-in-Transformer Network Utilizing Knowledge Distillation for Image Recognition [0.8196125054032961]
画像のグローバルな側面とローカルな側面に注意を向けるインナー・インナー・トランスフォーマー・ベースのアーキテクチャを提案する。
我々のアプローチは学習効率と効果を高める。
注目すべきは、提案されているTransformer-in-Transformer Network(TITN)モデルが、さまざまなデータセット間で印象的なマイルストーンを達成していることだ。
論文 参考訳(メタデータ) (2025-02-24T00:41:46Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Transformer Tracking with Cyclic Shifting Window Attention [17.73494432795304]
視覚オブジェクト追跡のためのマルチスケール巡回シフトウィンドウアテンションを備えた新しいトランスフォーマーアーキテクチャを提案する。
本稿では,本手法の優れた性能を示すとともに,新しい最先端記録を5つの挑戦的データセットに設定する。
論文 参考訳(メタデータ) (2022-05-08T07:46:34Z) - BViT: Broad Attention based Vision Transformer [13.994231768182907]
本稿では,BViTと呼ばれる視覚変換器において,異なるレイヤの注意関係を組み込むことにより,性能向上のための広範囲な注意を喚起する。
画像分類タスクの実験は、BViTが5M/22Mパラメータを持つImageNet上で74.8%/81.6%の最先端の精度を提供することを示した。
論文 参考訳(メタデータ) (2022-02-13T09:23:29Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。