論文の概要: Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition
- arxiv url: http://arxiv.org/abs/2407.19472v2
- Date: Sun, 6 Oct 2024 03:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:27:29.761150
- Title: Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition
- Title(参考訳): 市販のCNNとViTを併用した音声認識のためのもうひとつの驚くべきベースライン
- Authors: Fernando Alonso-Fernandez, Kevin Hernandez-Diaz, Prayag Tiwari, Josef Bigun,
- Abstract要約: 本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
- 参考スコア(独自算出の注目度): 49.14350399025926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We apply pre-trained architectures, originally developed for the ImageNet Large Scale Visual Recognition Challenge, for periocular recognition. These architectures have demonstrated significant success in various computer vision tasks beyond the ones for which they were designed. This work builds on our previous study using off-the-shelf Convolutional Neural Network (CNN) and extends it to include the more recently proposed Vision Transformers (ViT). Despite being trained for generic object classification, middle-layer features from CNNs and ViTs are a suitable way to recognize individuals based on periocular images. We also demonstrate that CNNs and ViTs are highly complementary since their combination results in boosted accuracy. In addition, we show that a small portion of these pre-trained models can achieve good accuracy, resulting in thinner models with fewer parameters, suitable for resource-limited environments such as mobiles. This efficiency improves if traditional handcrafted features are added as well.
- Abstract(参考訳): 本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
これらのアーキテクチャは、設計されたもの以外の様々なコンピュータビジョンタスクにおいて大きな成功を収めた。
この研究は、既成の畳み込みニューラルネットワーク(CNN)を用いた以前の研究に基づいており、最近提案されたビジョントランスフォーマー(ViT)を含むように拡張している。
汎用オブジェクト分類の訓練を受けているにもかかわらず、CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
また,CNN と ViT が相補的であることも実証した。
さらに,これらの事前学習モデルのごく一部で精度が向上し,より少ないパラメータで,移動体などの資源制限環境に適したモデルが得られることを示す。
この効率性は、従来の手作りの機能も追加すれば向上する。
関連論文リスト
- A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review [1.0937094979510213]
画像分類領域における畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の比較分析について検討する。
我々のゴールは、電子商取引業界におけるファッションMNISTデータセットの画像を分類するためのViTとCNNの最も適切なアーキテクチャを決定することです。
論文 参考訳(メタデータ) (2024-06-05T17:32:22Z) - Structured Initialization for Attention in Vision Transformers [34.374054040300805]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャ上の帰納バイアスを持ち、小規模な問題に対してうまく機能する。
我々は、CNNに固有のアーキテクチャバイアスを、ViT内の初期化バイアスとして再解釈することができると論じる。
この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能する権限を付与する上で重要である。
論文 参考訳(メタデータ) (2024-04-01T14:34:47Z) - LowDINO -- A Low Parameter Self Supervised Learning Model [0.0]
本研究は,小規模ネットワークが巨大ネットワークの特性を活用可能なニューラルネットワークアーキテクチャの設計の可能性を検討することを目的とする。
これまでの研究では、畳み込みニューラルネットワーク(ConvNet)を使用することで、固有の帰納バイアスが得られることが示されている。
パラメータの数を減らすために、MobileViTブロックを使用してアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2023-05-28T18:34:59Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。