論文の概要: Toward a Deeper Understanding: RetNet Viewed through Convolution
- arxiv url: http://arxiv.org/abs/2309.05375v2
- Date: Sun, 29 Oct 2023 07:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:12:44.675787
- Title: Toward a Deeper Understanding: RetNet Viewed through Convolution
- Title(参考訳): より深い理解に向けて: RetNetは進化を通して見る
- Authors: Chenghao Li, Chaoning Zhang
- Abstract要約: Vision Transformer (ViT)はCNNよりもグローバルな依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
本稿では、CNNの観点からRetNetの有効性について検討し、視覚領域に合わせたRetNetの変種を示す。
本稿では,1つのマスクが2つの学習可能なパラメータしか持たない新しいガウス混合マスク(GMM)を提案する。
- 参考スコア(独自算出の注目度): 25.8904146140577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of Vision Transformer (ViT) has been widely reported on a wide
range of image recognition tasks. ViT can learn global dependencies superior to
CNN, yet CNN's inherent locality can substitute for expensive training
resources. Recently, the outstanding performance of RetNet in the field of
language modeling has garnered attention, surpassing that of the Transformer
with explicit local modeling, shifting researchers' focus towards Transformers
in the CV field. This paper investigates the effectiveness of RetNet from a CNN
perspective and presents a variant of RetNet tailored to the visual domain.
Similar to RetNet we improves ViT's local modeling by applying a weight mask on
the original self-attention matrix. A straightforward way to locally adapt the
self-attention matrix can be realized by an element-wise learnable weight mask
(ELM), for which our preliminary results show promising results. However, the
element-wise simple learnable weight mask not only induces a non-trivial
additional parameter overhead but also increases the optimization complexity.
To this end, this work proposes a novel Gaussian mixture mask (GMM) in which
one mask only has two learnable parameters and it can be conveniently used in
any ViT variants whose attention mechanism allows the use of masks.
Experimental results on multiple small datasets demonstrate that the
effectiveness of our proposed Gaussian mask for boosting ViTs for free (almost
zero additional parameter or computation cost). Our code can be publicly
available at https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attention.
- Abstract(参考訳): Vision Transformer (ViT) の成功は、幅広い画像認識タスクで広く報告されている。
ViTはCNNよりも優れたグローバル依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
近年,言語モデリング分野におけるRetNetの卓越した性能が注目され,トランスフォーマーを明示的な局所モデリングで上回り,CV分野におけるトランスフォーマーへの研究者の焦点がシフトしている。
本稿では,CNNの観点からRetNetの有効性について検討し,視覚領域に適したRetNetの変種を示す。
RetNetと同様に、元の自己注意行列に重みマスクを適用することで、ViTの局所モデリングを改善する。
自己注意行列を局所的に適応させる簡単な方法は、要素的に学習可能な重みマスク(ELM)によって実現でき、この予備結果は有望な結果を示す。
しかし、要素単位で単純な学習可能な重みマスクは、非自明な追加パラメータのオーバーヘッドを誘導するだけでなく、最適化の複雑さを増大させる。
そこで本研究では, 1つのマスクが学習可能なパラメータしか持たず, 注意機構がマスクの使用を許容する任意のvit変種において便利に使用できる, ガウス混合マスク (gmm) を提案する。
複数の小データセットに対する実験結果から,提案したガウスマスクの有効性が,VTTを無償(ほぼゼロの追加パラメータや計算コスト)で強化することを示した。
私たちのコードはhttps://github.com/catworldlee/gaussian-mixture-mask-attentionで公開しています。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Masked autoencoders are effective solution to transformer data-hungry [0.0]
ビジョントランスフォーマー(ViT)は、いくつかのビジョンタスクにおいて、そのグローバルモデリング能力で畳み込みニューラルネットワーク(CNN)を上回っている。
ViTには、畳み込みに固有の帰納バイアスがなく、トレーニングに大量のデータを必要とする。
マスク付きオートエンコーダ(MAE)は、トランスフォーマーが画像自体にもっと焦点を合わせることができる。
論文 参考訳(メタデータ) (2022-12-12T03:15:19Z) - Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation [0.0]
本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-10-31T15:32:23Z) - MixMask: Revisiting Masking Strategy for Siamese ConvNets [24.20212182301359]
画像中のランダムに消去された領域によって引き起こされる情報の不完全性を防止するために,MixMaskと呼ばれる補充型マスキング手法を提案する。
提案手法は, 線形探索, 半教師付き, 教師付き微調整において, 精度が向上し, 最先端のMSCNよりも有意な差が認められた。
論文 参考訳(メタデータ) (2022-10-20T17:54:03Z) - MaskViT: Masked Visual Pre-Training for Video Prediction [29.25521342538311]
マスク付き視覚モデルを用いて、トランスフォーマーを事前学習することで、優れた映像予測モデルを作成する。
MaskViTは、ビデオ予測における以前の作業よりも優れ、パラメータ効率が高く、高解像度のビデオを生成することができる。
我々の研究は、マスク付き視覚モデリングの一般的な枠組みを活用することで、強力な予測モデルでエンボディードエージェントを育むことができることを示唆している。
論文 参考訳(メタデータ) (2022-06-23T17:59:33Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Unleashing Vanilla Vision Transformer with Masked Image Modeling for
Object Detection [39.37861288287621]
MIMで事前訓練されたバニラViTは、難しいオブジェクトレベルの認識シナリオで驚くほどうまく機能する。
ランダムなコンパクトなコンボリューションステムは、事前訓練された大きなカーネルのパッチフィケーションステムに取って代わる。
提案された検出器はMIMDetと呼ばれ、MIMで事前訓練されたバニラVITが2.3ボックスAPと2.5マスクAPで階層スウィントランスより優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-04-06T17:59:04Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Mask Attention Networks: Rethinking and Strengthen Transformer [70.95528238937861]
Transformerは、セルフアテンションネットワーク(SAN)とフィードフォワードネットワーク(FFN)の2つのサブレイヤからなる注目ベースのニューラルネットワークです。
論文 参考訳(メタデータ) (2021-03-25T04:07:44Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。