論文の概要: Hybrid Convolution and Vision Transformer NAS Search Space for TinyML Image Classification
- arxiv url: http://arxiv.org/abs/2511.02992v1
- Date: Tue, 04 Nov 2025 20:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.240355
- Title: Hybrid Convolution and Vision Transformer NAS Search Space for TinyML Image Classification
- Title(参考訳): TinyML画像分類のためのハイブリッド畳み込みと視覚変換器NAS検索空間
- Authors: Mikhael Djajapermana, Moritz Reiber, Daniel Mueller-Gritschneder, Ulf Schlichtmann,
- Abstract要約: 本稿では,ニューラルネットワーク探索(NAS)のための新しいハイブリッドCNN-ViT検索空間を提案し,画像分類のための効率的なハイブリッドアーキテクチャを提案する。
CIFAR10データセットによる実験結果から,提案した検索空間は,ResNetベースの小型MLモデルよりも精度と推論速度のよいハイブリッドCNN-ViTアーキテクチャを生成可能であることが示された。
- 参考スコア(独自算出の注目度): 3.774768721617445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hybrids of Convolutional Neural Network (CNN) and Vision Transformer (ViT) have outperformed pure CNN or ViT architecture. However, since these architectures require large parameters and incur large computational costs, they are unsuitable for tinyML deployment. This paper introduces a new hybrid CNN-ViT search space for Neural Architecture Search (NAS) to find efficient hybrid architectures for image classification. The search space covers hybrid CNN and ViT blocks to learn local and global information, as well as the novel Pooling block of searchable pooling layers for efficient feature map reduction. Experimental results on the CIFAR10 dataset show that our proposed search space can produce hybrid CNN-ViT architectures with superior accuracy and inference speed to ResNet-based tinyML models under tight model size constraints.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)のハイブリッドは、純粋なCNNやViTアーキテクチャよりも優れています。
しかし、これらのアーキテクチャは大きなパラメータを必要とし、大きな計算コストを必要とするため、小さなMLデプロイメントには適さない。
本稿では,ニューラルネットワーク探索(NAS)のための新しいハイブリッドCNN-ViT検索空間を提案し,画像分類のための効率的なハイブリッドアーキテクチャを提案する。
検索スペースは、ローカルおよびグローバルな情報を学ぶためのハイブリッドCNNとViTブロックと、効率的な特徴マップ削減のための検索可能なプール層のプールブロックをカバーしている。
CIFAR10データセットを用いた実験結果から,提案した検索空間は,モデルサイズ制約の厳しいResNetベースの小型MLモデルに対して,精度と推論速度に優れたハイブリッドCNN-ViTアーキテクチャを生成可能であることが示された。
関連論文リスト
- Low-Level Matters: An Efficient Hybrid Architecture for Robust Multi-frame Infrared Small Target Detection [5.048364655933007]
マルチフレーム赤外線小目標検出は、低高度および海洋監視において重要な役割を果たす。
CNNとTransformerを組み合わせたハイブリッドアーキテクチャは、マルチフレームIRSTDの強化に大いに期待できる。
低レベルの機能学習ハイブリッドフレームワークを再定義する,シンプルながら強力なハイブリッドアーキテクチャであるLVNetを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:53:25Z) - CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction [14.377544481394013]
CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。
この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。
10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2024-10-15T09:27:26Z) - Neural Architecture Search of Hybrid Models for NPU-CIM Heterogeneous AR/VR Devices [10.75997684204274]
ヘテロジニアスエッジシステムのための効率的なハイブリッドCNN/ViTモデルを設計するためのニューラルネットワーク探索フレームワークであるH4H-NASを紹介する。
Algo/HW共同設計の結果、全体のレイテンシは56.08%、エネルギーは41.72%向上した。
論文 参考訳(メタデータ) (2024-10-10T19:30:34Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Search For Deep Graph Neural Networks [4.3002928862077825]
現在のGNN指向NAS法は、浅い単純なアーキテクチャを持つ異なる層集約コンポーネントの探索に重点を置いている。
本稿では,新しい2段階探索空間を持つGNN生成パイプラインを提案する。
実世界のデータセットの実験では、生成したGNNモデルは、既存の手動設計やNASベースのモデルよりも優れています。
論文 参考訳(メタデータ) (2021-09-21T09:24:59Z) - Searching for Efficient Multi-Stage Vision Transformers [42.0565109812926]
Vision Transformer (ViT)は、自然言語処理のためのTransformerがコンピュータビジョンタスクに適用可能であることを示す。
ViT-ResNASは、ニューラルネットワークサーチ(NAS)で設計された効率的なマルチステージViTアーキテクチャである
論文 参考訳(メタデータ) (2021-09-01T22:37:56Z) - GLiT: Neural Architecture Search for Global and Local Image Transformer [114.8051035856023]
画像認識のためのトランスフォーマーアーキテクチャを改良するために,最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
画像分類では,ResNetファミリーやベースラインのViTよりも,より差別的で効率的なトランスフォーマー変種を見つけることができる。
論文 参考訳(メタデータ) (2021-07-07T00:48:09Z) - BossNAS: Exploring Hybrid CNN-transformers with Block-wisely
Self-supervised Neural Architecture Search [100.28980854978768]
BossNAS(Block-wisely Self-supervised Neural Architecture Search)の紹介
探索空間をブロックに分類し、アンサンブルブートストラッピングと呼ばれる新しい自己教師型トレーニングスキームを用いて各ブロックを個別に訓練する。
また,検索可能なダウンサンプリング位置を持つファブリック型cnnトランスフォーマ検索空間であるhytra search spaceを提案する。
論文 参考訳(メタデータ) (2021-03-23T10:05:58Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。