論文の概要: How Well Do Vision Transformers (VTs) Transfer To The Non-Natural Image
Domain? An Empirical Study Involving Art Classification
- arxiv url: http://arxiv.org/abs/2208.04693v1
- Date: Tue, 9 Aug 2022 12:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:45:28.217743
- Title: How Well Do Vision Transformers (VTs) Transfer To The Non-Natural Image
Domain? An Empirical Study Involving Art Classification
- Title(参考訳): 視覚トランスフォーマー(vts)は非自然画像領域にどの程度転送できるか?
美術分類に関する実証的研究
- Authors: Vincent Tonkes and Matthia Sabatelli
- Abstract要約: 視覚変換器(VTs)は畳み込みニューラルネットワーク(CNNs)の代用として有用なものになりつつある
我々は、人気のあるImageNetデータセットで事前訓練されたVTが、非自然な画像領域に転送可能な表現を学習するかどうかを検討する。
以上の結果から,VTはCNNよりも強力な特徴抽出器であることが示唆された。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (VTs) are becoming a valuable alternative to
Convolutional Neural Networks (CNNs) when it comes to problems involving
high-dimensional and spatially organized inputs such as images. However, their
Transfer Learning (TL) properties are not yet well studied, and it is not fully
known whether these neural architectures can transfer across different domains
as well as CNNs. In this paper we study whether VTs that are pre-trained on the
popular ImageNet dataset learn representations that are transferable to the
non-natural image domain. To do so we consider three well-studied art
classification problems and use them as a surrogate for studying the TL
potential of four popular VTs. Their performance is extensively compared
against that of four common CNNs across several TL experiments. Our results
show that VTs exhibit strong generalization properties and that these networks
are more powerful feature extractors than CNNs.
- Abstract(参考訳): 視覚変換器(VT)は、画像などの高次元および空間的に整理された入力に関わる問題に関して、畳み込みニューラルネットワーク(CNN)の代替として有用なものになりつつある。
しかしながら、それらのトランスファーラーニング(TL)特性はまだ十分に研究されておらず、これらのニューラルアーキテクチャがCNNと同様に異なるドメイン間で転送できるかどうかは完全には分かっていない。
本稿では、人気のあるImageNetデータセット上で事前訓練されたVTが、非自然な画像領域に転送可能な表現を学習するかどうかを検討する。
そこで我々は,3つのよく研究された美術分類問題を考察し,これらを4つのVTのTLポテンシャルの研究の代用として利用する。
これらの性能は、いくつかのTL実験において4つの一般的なCNNと比較される。
その結果,vtは強い一般化特性を示し,これらのネットワークはcnnよりも強力な特徴抽出器であることがわかった。
関連論文リスト
- Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - A Comprehensive Study of Vision Transformers on Dense Prediction Tasks [10.013443811899466]
畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
論文 参考訳(メタデータ) (2022-01-21T13:18:16Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。