論文の概要: Maximizing the Position Embedding for Vision Transformers with Global Average Pooling
- arxiv url: http://arxiv.org/abs/2502.02919v1
- Date: Wed, 05 Feb 2025 06:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:21.191815
- Title: Maximizing the Position Embedding for Vision Transformers with Global Average Pooling
- Title(参考訳): 大域的平均ポーリングによる視覚変換器の位置埋め込みの最大化
- Authors: Wonjun Lee, Bumsub Ham, Suhyun Kim,
- Abstract要約: 視覚変換器では、位置埋め込み(PE)がトークンの順序を捉える上で重要な役割を果たす。
各レイヤにPEを提供し、トークン埋め込みに独立したレイヤ正規化を適用するレイヤワイズ方式が、この制限を克服するために採用されている。
本稿では,クラストークンの代わりにグローバル平均プーリング(GAP)法を用いた場合,階層構造で発生する矛盾する結果を特定する。
- 参考スコア(独自算出の注目度): 26.775463077353063
- License:
- Abstract: In vision transformers, position embedding (PE) plays a crucial role in capturing the order of tokens. However, in vision transformer structures, there is a limitation in the expressiveness of PE due to the structure where position embedding is simply added to the token embedding. A layer-wise method that delivers PE to each layer and applies independent Layer Normalizations for token embedding and PE has been adopted to overcome this limitation. In this paper, we identify the conflicting result that occurs in a layer-wise structure when using the global average pooling (GAP) method instead of the class token. To overcome this problem, we propose MPVG, which maximizes the effectiveness of PE in a layer-wise structure with GAP. Specifically, we identify that PE counterbalances token embedding values at each layer in a layer-wise structure. Furthermore, we recognize that the counterbalancing role of PE is insufficient in the layer-wise structure, and we address this by maximizing the effectiveness of PE through MPVG. Through experiments, we demonstrate that PE performs a counterbalancing role and that maintaining this counterbalancing directionality significantly impacts vision transformers. As a result, the experimental results show that MPVG outperforms existing methods across vision transformers on various tasks.
- Abstract(参考訳): 視覚変換器では、位置埋め込み(PE)がトークンの順序を捉える上で重要な役割を果たす。
しかし、視覚変換器構造では、トークン埋め込みに簡単に位置埋め込みを追加する構造のため、PEの表現性に制限がある。
各レイヤにPEを配信し、トークン埋め込みとPEに独立したレイヤ正規化を適用するレイヤワイズ方式が、この制限を克服するために採用されている。
本稿では,クラストークンの代わりにグローバル平均プーリング(GAP)法を用いた場合,階層構造で発生する矛盾する結果を特定する。
この問題を解決するために,GAPを用いた階層構造におけるPEの有効性を最大化するMPVGを提案する。
具体的には,PEが各層へのトークンの埋め込み値と,層単位でのバランスをとることを確認した。
さらに,層構造においてPEの反バランスの役割が不十分であることを認識し,MPVGによるPEの有効性を最大化することでこの問題に対処する。
実験により,PEが反バランスの役割を担い,この反バランスの方向性を維持することが視覚変換器に大きな影響を及ぼすことを示した。
その結果,MPVGは様々なタスクにおいて視覚変換器の既存手法よりも優れていた。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation [0.0]
LRP-QViTは、異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく手法である。
実験結果から,固定ビット・混合ビット後量子化法が既存の4ビット・6ビット量子化法を超越していることが判明した。
論文 参考訳(メタデータ) (2024-01-20T14:53:19Z) - On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Position Embedding Needs an Independent Layer Normalization [14.08997314908106]
本研究では,LaPE(Layer-Adaptive Position Embedding)が様々なタイプのPEで様々な視覚変換器(VT)を改善することを示す。
LaPEはCifar10のViT-Liteの0.94%、Cifar100のCCTの0.98%、ImageNet-1KのDeiTの1.72%の精度を改善している。
論文 参考訳(メタデータ) (2022-12-10T10:38:00Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。