論文の概要: Visformer: The Vision-friendly Transformer
- arxiv url: http://arxiv.org/abs/2104.12533v1
- Date: Mon, 26 Apr 2021 13:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:33:51.569845
- Title: Visformer: The Vision-friendly Transformer
- Title(参考訳): Visformer:視覚に優しいトランスフォーマー
- Authors: Zhengsu Chen, Lingxi Xie, Jianwei Niu, Xuefeng Liu, Longhui Wei, Qi
Tian
- Abstract要約: 我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
- 参考スコア(独自算出の注目度): 105.52122194322592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past year has witnessed the rapid development of applying the Transformer
module to vision problems. While some researchers have demonstrated that
Transformer-based models enjoy a favorable ability of fitting data, there are
still growing number of evidences showing that these models suffer over-fitting
especially when the training data is limited. This paper offers an empirical
study by performing step-by-step operations to gradually transit a
Transformer-based model to a convolution-based model. The results we obtain
during the transition process deliver useful messages for improving visual
recognition. Based on these observations, we propose a new architecture named
Visformer, which is abbreviated from the `Vision-friendly Transformer'. With
the same computational complexity, Visformer outperforms both the
Transformer-based and convolution-based models in terms of ImageNet
classification accuracy, and the advantage becomes more significant when the
model complexity is lower or the training set is smaller. The code is available
at https://github.com/danczs/Visformer.
- Abstract(参考訳): 過去1年間、視覚問題にトランスフォーマーモジュールを適用する急速な開発が見られた。
一部の研究者は、トランスフォーマーモデルがデータに適合する能力を持っていることを実証しているが、特にトレーニングデータに制限がある場合、これらのモデルが過剰に適合していることを示す証拠は増え続けている。
本稿では,トランスフォーマーモデルから畳み込みモデルへ段階的に移行するステップバイステップ操作による実証的研究を提案する。
遷移過程において得られた結果は、視覚認識を改善するのに有用なメッセージを提供する。
これらの観測に基づいて,視覚にやさしいトランスフォーマーを省略したVisformerという新しいアーキテクチャを提案する。
同じ計算複雑性で、Visformerは、ImageNet分類精度の観点からTransformerベースのモデルと畳み込みベースのモデルの両方より優れており、モデルの複雑さが小さくなり、トレーニングセットが小さくなると、その利点はより重要になる。
コードはhttps://github.com/danczs/visformerで入手できる。
関連論文リスト
- Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - Convolutional Bypasses Are Better Vision Transformer Adapters [14.993203705812654]
視覚変換器(ViT)のサイズが指数関数的に大きくなるにつれて、より重い記憶オーバーヘッドの観点から完全な微調整が禁止される。
近年の研究では、トレーニング済みのViTに軽量適応モジュールを挿入し、トレーニング済みの重みが凍結されている間にのみそれらのモジュールを微調整する試みが行われている。
本稿では,ViT の適応モジュールとして Convolutional Bypasses (Convpass) を構築することを提案する。
論文 参考訳(メタデータ) (2022-07-14T16:32:28Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。