論文の概要: A Manifold Representation of the Key in Vision Transformers
- arxiv url: http://arxiv.org/abs/2402.00534v1
- Date: Thu, 1 Feb 2024 12:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:23:40.049790
- Title: A Manifold Representation of the Key in Vision Transformers
- Title(参考訳): 視覚変換器における鍵のマニフォールド表現
- Authors: Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad
- Abstract要約: 本稿では、キーをクエリと値から切り離し、キーの多様体表現を採用するという概念について検討する。
実験の結果,鍵を多様体構造で切り離して付与することで,モデル性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 9.764580619424713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers implement multi-head self-attention (MSA) via stacking
multiple attention blocks. The query, key, and value are often intertwined and
generated within those blocks via a single, shared linear transformation. This
paper explores the concept of disentangling the key from the query and value,
and adopting a manifold representation for the key. Our experiments reveal that
decoupling and endowing the key with a manifold structure can enhance the model
performance. Specifically, ViT-B exhibits a 0.87% increase in top-1 accuracy,
while Swin-T sees a boost of 0.52% in top-1 accuracy on the ImageNet-1K
dataset, with eight charts in the manifold key. Our approach also yields
positive results in object detection and instance segmentation tasks on the
COCO dataset. Through detailed ablation studies, we establish that these
performance gains are not merely due to the simplicity of adding more
parameters and computations. Future research may investigate strategies for
cutting the budget of such representations and aim for further performance
improvements based on our findings.
- Abstract(参考訳): 視覚トランスフォーマーはマルチヘッドセルフアテンション(msa)を実装し、複数のアテンションブロックを積み重ねる。
クエリ、キー、値はしばしば相互に結合され、単一の共有線形変換によってそれらのブロック内で生成される。
本稿では,クエリと値からキーを分離し,キーに多様体表現を適用するという概念について検討する。
実験の結果,鍵を多様体構造で切り離して付与することで,モデル性能が向上することがわかった。
具体的には、ViT-Bはトップ1の精度が0.87%上昇し、Swin-TはImageNet-1Kデータセットでトップ1の精度が0.52%アップし、多様体キーには8つのチャートがある。
このアプローチは、cocoデータセット上のオブジェクト検出とインスタンスセグメンテーションタスクにポジティブな結果をもたらします。
詳細なアブレーション研究により、これらの性能向上は単にパラメータや計算量を増やす単純さによるものではないことが判明した。
今後の研究は、これらの表現の予算削減戦略について検討し、その結果に基づいてさらなる性能向上を目指す。
関連論文リスト
- RAT: Retrieval-Augmented Transformer for Click-Through Rate Prediction [68.34355552090103]
本稿では, 試料内および試料間における微細な特徴相互作用の獲得を目的とした検索-拡張変換器(RAT)を開発した。
次に、トランスフォーマー層をカスケードされた注意で構築し、イントラサンプルとクロスサンプルの両方の機能インタラクションをキャプチャします。
実世界のデータセットの実験は、RATの有効性を裏付け、ロングテールシナリオにおいてその利点を示唆している。
論文 参考訳(メタデータ) (2024-04-02T19:14:23Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Improving Contrastive Learning by Visualizing Feature Transformation [37.548120912055595]
本稿では,データ拡張とは異なる特徴レベルのデータ操作を考案し,汎用的なコントラスト型自己教師型学習の強化を試みる。
まず,pos/negスコアの可視化手法(pos/negスコアはpos/negペアの類似性を示す)を設計し,学習過程の分析,解釈,理解を可能にする。
その結果,MoCoベースライン上でのImageNet-100の精度は少なくとも6.0%向上し,MoCoV2ベースライン上でのImageNet-1Kの精度は約2.0%向上した。
論文 参考訳(メタデータ) (2021-08-06T07:26:08Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。