論文の概要: EIT: Efficiently Lead Inductive Biases to ViT
- arxiv url: http://arxiv.org/abs/2203.07116v1
- Date: Mon, 14 Mar 2022 14:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 15:55:44.123662
- Title: EIT: Efficiently Lead Inductive Biases to ViT
- Title(参考訳): EIT: インダクティブビアーゼをViTに効率よくリードする
- Authors: Rui Xia, Jingchao Wang, Chao Xue, Boyu Deng, Fang Wang
- Abstract要約: ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存する。
本稿では, インダクティブバイアスをViT(EIT)に効率よく導くアーキテクチャを提案し, インダクティブバイアスをViTの両相に効果的に導くことができる。
ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
- 参考スコア(独自算出の注目度): 17.66805405320505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) depends on properties similar to the inductive bias
inherent in Convolutional Neural Networks to perform better on non-ultra-large
scale datasets. In this paper, we propose an architecture called Efficiently
lead Inductive biases to ViT (EIT), which can effectively lead the inductive
biases to both phases of ViT. In the Patches Projection phase, a convolutional
max-pooling structure is used to produce overlapping patches. In the
Transformer Encoder phase, we design a novel inductive bias introduction
structure called decreasing convolution, which is introduced parallel to the
multi-headed attention module, by which the embedding's different channels are
processed respectively. In four popular small-scale datasets, compared with
ViT, EIT has an accuracy improvement of 12.6% on average with fewer parameters
and FLOPs. Compared with ResNet, EIT exhibits higher accuracy with only 17.7%
parameters and fewer FLOPs. Finally, ablation studies show that the EIT is
efficient and does not require position embedding. Code is coming soon:
https://github.com/MrHaiPi/EIT
- Abstract(参考訳): ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存して、非超大規模データセットの性能を向上させる。
本稿では,vitの両相への帰納的バイアスを効果的に導くために,vitへの帰納的バイアス(eit)を効率的に導くアーキテクチャを提案する。
パッチ投影フェーズでは、重複パッチを生成するために畳み込み最大プール構造を用いる。
トランスエンコーダフェーズでは,インダクションの異なるチャネルをそれぞれ処理したマルチヘッドアテンションモジュールに並列に導入した,還元畳み込みと呼ばれる新しいインダクティブバイアス導入構造を設計する。
ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
ResNetと比較すると、EITは17.7%のパラメータしか持たず、FLOPは少ない。
最後に、アブレーション研究は、EITは効率的であり、位置埋め込みを必要としないことを示した。
もうすぐコードが登場する:https://github.com/MrHaiPi/EIT
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Towards Flexible Inductive Bias via Progressive Reparameterization
Scheduling [25.76814731638375]
コンピュータビジョンには、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の2つのデファクト標準アーキテクチャがある。
これらのアプローチの見落としとして、最適な帰納バイアスも、対象データスケールの変化に応じて変化することを示す。
畳み込みのような帰納バイアスがモデルに含まれるほど、ViTのようなモデルがResNetのパフォーマンスを上回っている場合、データスケールが小さくなります。
論文 参考訳(メタデータ) (2022-10-04T04:20:20Z) - LightViT: Towards Light-Weight Convolution-Free Vision Transformers [43.48734363817069]
視覚変換器(ViT)は通常、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられている
コンボリューションを伴わない純粋な変圧器ブロック上での精度・効率バランスを改善するために,LightViT を軽量 ViT の新たなファミリとして提案する。
実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2022-07-12T14:27:57Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。