論文の概要: Multi-Dimensional Hyena for Spatial Inductive Bias
- arxiv url: http://arxiv.org/abs/2309.13600v1
- Date: Sun, 24 Sep 2023 10:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:43:54.325828
- Title: Multi-Dimensional Hyena for Spatial Inductive Bias
- Title(参考訳): 空間誘導バイアスのための多次元ハイエナ
- Authors: Itamar Zimerman and Lior Wolf
- Abstract要約: 自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
- 参考スコア(独自算出の注目度): 69.3021852589771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Vision Transformers have attracted increasing interest from
computer vision researchers. However, the advantage of these transformers over
CNNs is only fully manifested when trained over a large dataset, mainly due to
the reduced inductive bias towards spatial locality within the transformer's
self-attention mechanism. In this work, we present a data-efficient vision
transformer that does not rely on self-attention. Instead, it employs a novel
generalization to multiple axes of the very recent Hyena layer. We propose
several alternative approaches for obtaining this generalization and delve into
their unique distinctions and considerations from both empirical and
theoretical perspectives.
Our empirical findings indicate that the proposed Hyena N-D layer boosts the
performance of various Vision Transformer architectures, such as ViT, Swin, and
DeiT across multiple datasets. Furthermore, in the small dataset regime, our
Hyena-based ViT is favorable to ViT variants from the recent literature that
are specifically designed for solving the same challenge, i.e., working with
small datasets or incorporating image-specific inductive bias into the
self-attention mechanism. Finally, we show that a hybrid approach that is based
on Hyena N-D for the first layers in ViT, followed by layers that incorporate
conventional attention, consistently boosts the performance of various vision
transformer architectures.
- Abstract(参考訳): 近年、視覚トランスフォーマーはコンピュータビジョン研究者の関心を集めている。
しかしながら、cnnに対するこれらのトランスフォーマーのアドバンテージは、大きなデータセット上でトレーニングされた場合にのみ、主にトランスフォーマーの自己照準機構内の空間的局所性に対する帰納的バイアスの低減によるものである。
本稿では,自己着脱に依存しないデータ効率の高い視覚トランスフォーマを提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
我々は、この一般化を得るためのいくつかの代替手法を提案し、経験的および理論的観点から、その特異な区別と考察を探究する。
実験の結果,提案したHyena N-D層は,ViT,Swin,DeiTなど,さまざまなVision Transformerアーキテクチャの性能を複数のデータセットで向上させることがわかった。
さらに,小さなデータセットでは,ハイエナベースのvitは,同じ課題,すなわち,小さなデータセットの処理や,イメージ固有の帰納的バイアスを自己発見機構に組み込むために特別に設計された最近の文献のvit変種に好適である。
最後に,vitの最初のレイヤに対してhyena n-dをベースとするハイブリッドアプローチと,従来の注意を組み込んだレイヤが,さまざまな視覚トランスフォーマアーキテクチャのパフォーマンスを一貫して向上させることを示す。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - A survey of the Vision Transformers and their CNN-Transformer based Variants [0.48163317476588563]
ビジョントランスフォーマーは、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(CNN)の代替として人気がある。
これらのトランスフォーマーは、画像のグローバルな関係にフォーカスする能力を持ち、大きな学習能力を提供する。
近年,視覚変換器による畳み込み操作と自己認識機構のハイブリッド化が出現し,局所的およびグローバルな画像表現の両面を利用した。
論文 参考訳(メタデータ) (2023-05-17T01:27:27Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。