論文の概要: Vision Pair Learning: An Efficient Training Framework for Image
Classification
- arxiv url: http://arxiv.org/abs/2112.00965v1
- Date: Thu, 2 Dec 2021 03:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 04:40:46.118133
- Title: Vision Pair Learning: An Efficient Training Framework for Image
Classification
- Title(参考訳): 視覚ペア学習 : 画像分類のための効率的な学習フレームワーク
- Authors: Bei Tong and Xiaoyuan Yu
- Abstract要約: TransformerとCNNは、表現学習と収束速度を補完する。
ビジョンペアラーニング(VPL)は、トランスフォーマーブランチ、CNNブランチ、ペアラーニングモジュールで構成されるネットワークを構築する。
VPLは、ImageNet-1kバリデーションセットのViT-BaseとResNet-50のトップ1の精度を、それぞれ83.47%と79.61%に向上させる。
- 参考スコア(独自算出の注目度): 0.8223798883838329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer is a potentially powerful architecture for vision tasks. Although
equipped with more parameters and attention mechanism, its performance is not
as dominant as CNN currently. CNN is usually computationally cheaper and still
the leading competitor in various vision tasks. One research direction is to
adopt the successful ideas of CNN and improve transformer, but it often relies
on elaborated and heuristic network design. Observing that transformer and CNN
are complementary in representation learning and convergence speed, we propose
an efficient training framework called Vision Pair Learning (VPL) for image
classification task. VPL builds up a network composed of a transformer branch,
a CNN branch and pair learning module. With multi-stage training strategy, VPL
enables the branches to learn from their partners during the appropriate stage
of the training process, and makes them both achieve better performance with
less time cost. Without external data, VPL promotes the top-1 accuracy of
ViT-Base and ResNet-50 on the ImageNet-1k validation set to 83.47% and 79.61%
respectively. Experiments on other datasets of various domains prove the
efficacy of VPL and suggest that transformer performs better when paired with
the differently structured CNN in VPL. we also analyze the importance of
components through ablation study.
- Abstract(参考訳): Transformerは視覚タスクのための強力なアーキテクチャである。
より多くのパラメータとアテンション機構を備えているが、その性能は現在のCNNほど優位ではない。
CNNは通常計算コストが低く、様々な視覚タスクにおける主要な競合相手である。
研究の方向性の1つは、CNNの成功とトランスフォーマーの改善であるが、しばしば精巧でヒューリスティックなネットワーク設計に依存している。
変換器とCNNは表現学習と収束速度において相補的であることから,画像分類タスクのための視覚ペア学習(VPL)と呼ばれる効率的なトレーニングフレームワークを提案する。
VPLはトランスフォーマーブランチ、CNNブランチ、ペア学習モジュールで構成されるネットワークを構築する。
多段階のトレーニング戦略により、vplはトレーニングプロセスの適切な段階でパートナーから学ぶことができ、より少ない時間コストでより良いパフォーマンスを達成することができる。
外部データなしでは、VPLはImageNet-1k検証セットのViT-BaseとResNet-50のトップ1の精度をそれぞれ83.47%と79.61%に向上させる。
様々な領域の他のデータセットの実験は、VPLの有効性を証明し、VPLの異なる構造を持つCNNとペアリングした場合、トランスフォーマーはより良い性能を示すことを示唆している。
アブレーション研究を通して 成分の重要性を分析します
関連論文リスト
- Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid
Algorithm with Transformer and CNN Encoders [0.2353157426758003]
顕微鏡画像上で事前学習したTransformerモデルとCNNモデルのセグメンテーション性能を、自然画像上で事前学習したモデルと比較する。
また,画像セグメンテーションにおいて,事前学習したトランスフォーマーとCNNエンコーダの組み合わせは,事前学習したCNNエンコーダ単独よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-26T16:56:15Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - ConvFormer: Closing the Gap Between CNN and Vision Transformers [12.793893108426742]
複数のカーネルサイズで入力画像の異なるパターンをキャプチャするMCAという新しいアテンション機構を提案する。
MCAに基づいて,ConvFormerというニューラルネットワークを提案する。
ConvFormerは、様々なタスクにおいて、同様の大きさの視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)より優れていることを示す。
論文 参考訳(メタデータ) (2022-09-16T06:45:01Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。