論文の概要: A Transformer-in-Transformer Network Utilizing Knowledge Distillation for Image Recognition
- arxiv url: http://arxiv.org/abs/2502.16762v1
- Date: Mon, 24 Feb 2025 00:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:11.263991
- Title: A Transformer-in-Transformer Network Utilizing Knowledge Distillation for Image Recognition
- Title(参考訳): 画像認識のための知識蒸留を利用したトランスフォーマー・イン・トランスフォーマーネットワーク
- Authors: Dewan Tauhid Rahman, Yeahia Sarker, Antar Mazumder, Md. Shamim Anower,
- Abstract要約: 画像のグローバルな側面とローカルな側面に注意を向けるインナー・インナー・トランスフォーマー・ベースのアーキテクチャを提案する。
我々のアプローチは学習効率と効果を高める。
注目すべきは、提案されているTransformer-in-Transformer Network(TITN)モデルが、さまざまなデータセット間で印象的なマイルストーンを達成していることだ。
- 参考スコア(独自算出の注目度): 0.8196125054032961
- License:
- Abstract: This paper presents a novel knowledge distillation neural architecture leveraging efficient transformer networks for effective image classification. Natural images display intricate arrangements encompassing numerous extraneous elements. Vision transformers utilize localized patches to compute attention. However, exclusive dependence on patch segmentation proves inadequate in sufficiently encompassing the comprehensive nature of the image. To address this issue, we have proposed an inner-outer transformer-based architecture, which gives attention to the global and local aspects of the image. Moreover, The training of transformer models poses significant challenges due to their demanding resource, time, and data requirements. To tackle this, we integrate knowledge distillation into the architecture, enabling efficient learning. Leveraging insights from a larger teacher model, our approach enhances learning efficiency and effectiveness. Significantly, the transformer-in-transformer network acquires lightweight characteristics by means of distillation conducted within the feature extraction layer. Our featured network's robustness is established through substantial experimentation on the MNIST, CIFAR10, and CIFAR100 datasets, demonstrating commendable top-1 and top-5 accuracy. The conducted ablative analysis comprehensively validates the effectiveness of the chosen parameters and settings, showcasing their superiority against contemporary methodologies. Remarkably, the proposed Transformer-in-Transformer Network (TITN) model achieves impressive performance milestones across various datasets: securing the highest top-1 accuracy of 74.71% and a top-5 accuracy of 92.28% for the CIFAR100 dataset, attaining an unparalleled top-1 accuracy of 92.03% and top-5 accuracy of 99.80% for the CIFAR-10 dataset, and registering an exceptional top-1 accuracy of 99.56% for the MNIST dataset.
- Abstract(参考訳): 本稿では,効率的な画像分類に効率的なトランスフォーマーネットワークを活用した新しい知識蒸留ニューラルアーキテクチャを提案する。
自然画像は、多くの外部要素を含む複雑な配列を表示する。
視覚変換器は、局所化されたパッチを使用して注意を計算する。
しかし、パッチセグメンテーションへの排他的依存は、画像の包括的な性質を十分に包含するには不十分である。
この問題に対処するために、画像のグローバルおよびローカルな側面に注意を向けるインナー・インナー・トランスフォーマー・ベースのアーキテクチャを提案する。
さらに、トランスモデルのトレーニングは、リソース、時間、データ要求が要求されるため、大きな課題を引き起こします。
これを解決するため,我々は知識蒸留をアーキテクチャに統合し,効率的な学習を可能にする。
より大規模な教師モデルから洞察を得ることで、学習効率と効果を高めることができる。
重要なことに、トランス・イン・トランスネットワークは、特徴抽出層内で行われる蒸留により、軽量な特性を取得する。
MNIST, CIFAR10, CIFAR100データセットのかなりの実験により, ネットワークのロバスト性を確立し, 圧縮可能なトップ1とトップ5の精度を示す。
本研究は, パラメータと設定の有効性を総合的に検証し, 現代の方法論に対する優位性を示すものである。
注目すべきなのは、Transformer-in-Transformer Network (TITN)モデルが、CIFAR100データセットの最高トップ1の精度74.71%、トップ5の精度92.28%、CIFAR-10データセットの92.03%、トップ5の精度99.80%、MNISTデータセットの最高トップ1の精度99.56%、といった、さまざまなデータセットの素晴らしいパフォーマンスマイルストーンを達成したことだ。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - MViT: Mask Vision Transformer for Facial Expression Recognition in the
wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。
本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。
我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文 参考訳(メタデータ) (2021-06-08T16:58:10Z) - On the Generalization Effects of Linear Transformations in Data
Augmentation [32.01435459892255]
データ拡張は、画像やテキストの分類タスクのようなアプリケーションのパフォーマンスを改善するための強力な技術である。
我々は線形変換の族を研究し、過度にパラメータ化された線形回帰設定におけるリッジ推定器への影響について研究する。
本稿では,モデルが変換データに対してどの程度不確実であるかによって,変換空間を探索する拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T04:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。