論文の概要: Gramian Attention Heads are Strong yet Efficient Vision Learners
- arxiv url: http://arxiv.org/abs/2310.16483v1
- Date: Wed, 25 Oct 2023 09:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:46:10.466124
- Title: Gramian Attention Heads are Strong yet Efficient Vision Learners
- Title(参考訳): グラミアン・アテンション・ヘッドは強いが効果的な視覚学習者
- Authors: Jongbin Ryu, Dongyoon Han, Jongwoo Lim
- Abstract要約: 複数のヘッダ分類器(e, classification head)を組み込むことで表現性を向上する新しいアーキテクチャ設計を提案する。
本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用したアグリゲーションを用いる。
われわれのモデルは最終的に、ImageNet-1Kの精度の細かいトレードオフに関して、最先端のCNNやViTを上回ることになる。
- 参考スコア(独自算出の注目度): 26.79263390835444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel architecture design that enhances expressiveness by
incorporating multiple head classifiers (\ie, classification heads) instead of
relying on channel expansion or additional building blocks. Our approach
employs attention-based aggregation, utilizing pairwise feature similarity to
enhance multiple lightweight heads with minimal resource overhead. We compute
the Gramian matrices to reinforce class tokens in an attention layer for each
head. This enables the heads to learn more discriminative representations,
enhancing their aggregation capabilities. Furthermore, we propose a learning
algorithm that encourages heads to complement each other by reducing
correlation for aggregation. Our models eventually surpass state-of-the-art
CNNs and ViTs regarding the accuracy-throughput trade-off on ImageNet-1K and
deliver remarkable performance across various downstream tasks, such as COCO
object instance segmentation, ADE20k semantic segmentation, and fine-grained
visual classification datasets. The effectiveness of our framework is
substantiated by practical experimental results and further underpinned by
generalization error bound. We release the code publicly at:
https://github.com/Lab-LVM/imagenet-models.
- Abstract(参考訳): チャネル拡張や付加的なビルディングブロックに頼るのではなく,複数のヘッド分類器 (\ie, classification head) を組み込むことで表現性を高める新しいアーキテクチャ設計を提案する。
本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用する。
グラミアン行列を計算して各頭部の注目層におけるクラストークンを補強する。
これにより、ヘッドはより差別的な表現を学び、集約能力を高めることができる。
さらに,アグリゲーションの相関を小さくすることで,頭部の補間を促す学習アルゴリズムを提案する。
われわれのモデルは最終的に、ImageNet-1Kの精度スループットトレードオフに関して最先端のCNNやViTを超越し、COCOオブジェクトインスタンスセグメンテーション、ADE20kセマンティックセグメンテーション、きめ細かい視覚的分類データセットなど、さまざまな下流タスクに顕著なパフォーマンスを提供する。
本フレームワークの有効性は, 実験結果によって実証され, さらに一般化誤差境界によって裏付けられている。
コードはhttps://github.com/lab-lvm/imagenet-modelsで公開しています。
関連論文リスト
- Fisher Information Embedding for Node and Graph Learning [5.263910852465186]
本稿では,グラフのための新しい注目型ノード埋め込みフレームワークを提案する。
我々のフレームワークはノード周辺のサブグラフの多重集合のための階層的カーネル上に構築されている。
埋め込みの一般化性と表現性に関する理論的知見を提供する。
論文 参考訳(メタデータ) (2023-05-12T16:15:30Z) - Convolutional Fine-Grained Classification with Self-Supervised Target
Relation Regularization [34.8793946023412]
本稿では,動的ターゲット関係グラフ(DTRG)を新たに導入する。
クラスレベルの特徴中心のオンライン計算は、表現空間におけるカテゴリ間距離を生成するように設計されている。
提案したターゲットグラフは,表現学習におけるデータの分散性と不均衡を緩和する。
論文 参考訳(メタデータ) (2022-08-03T11:51:53Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - GraphCoCo: Graph Complementary Contrastive Learning [65.89743197355722]
グラフコントラスト学習(GCL)は、手作業によるアノテーションの監督なしに、グラフ表現学習(GRL)において有望な性能を示した。
本稿では,この課題に対処するため,グラフココというグラフ補完型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T02:58:36Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - GATCluster: Self-Supervised Gaussian-Attention Network for Image
Clustering [9.722607434532883]
画像クラスタリングのための自己教師型クラスタリングネットワーク(GATCluster)を提案する。
まず中間機能を抽出し、次に従来のクラスタリングを実行する代わりに、GATClusterセマンティッククラスタラベルを後処理なしで実行します。
大規模画像のクラスタリングにメモリ効率のよい2段階学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-27T00:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。