論文の概要: KAN-Mixers: a new deep learning architecture for image classification
- arxiv url: http://arxiv.org/abs/2503.08939v1
- Date: Tue, 11 Mar 2025 22:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:15.252542
- Title: KAN-Mixers: a new deep learning architecture for image classification
- Title(参考訳): Kan-Mixers:画像分類のための新しいディープラーニングアーキテクチャ
- Authors: Jorge Luiz dos Santos Canuto, Linnyer Beatrys Ruiz Aylon, Rodrigo Clemente Thom de Souza,
- Abstract要約: 本研究の目的は,kanを主層とし,その性能評価を行うKan-Mixersと呼ばれる新しいミキサーアーキテクチャを設計することである。
その結果,kan-Mixersモデルの方がNIST-Mixerモデルやkanモデルより優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Due to their effective performance, Convolutional Neural Network (CNN) and Vision Transformer (ViT) architectures have become the standard for solving computer vision tasks. Such architectures require large data sets and rely on convolution and self-attention operations. In 2021, MLP-Mixer emerged, an architecture that relies only on Multilayer Perceptron (MLP) and achieves extremely competitive results when compared to CNNs and ViTs. Despite its good performance in computer vision tasks, the MLP-Mixer architecture may not be suitable for refined feature extraction in images. Recently, the Kolmogorov-Arnold Network (KAN) was proposed as a promising alternative to MLP models. KANs promise to improve accuracy and interpretability when compared to MLPs. Therefore, the present work aims to design a new mixer-based architecture, called KAN-Mixers, using KANs as main layers and evaluate its performance, in terms of several performance metrics, in the image classification task. As main results obtained, the KAN-Mixers model was superior to the MLP, MLP-Mixer and KAN models in the Fashion-MNIST and CIFAR-10 datasets, with 0.9030 and 0.6980 of average accuracy, respectively.
- Abstract(参考訳): 効果的な性能のため、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)アーキテクチャがコンピュータビジョンタスクの標準となっている。
このようなアーキテクチャは大規模なデータセットを必要とし、畳み込みと自己注意操作に依存している。
2021年、MLP(Multilayer Perceptron)のみに依存したアーキテクチャであるMLP-Mixerが登場した。
コンピュータビジョンにおける優れた性能にもかかわらず、MLP-Mixerアーキテクチャは画像の特徴抽出に適さないかもしれない。
近年、MLPモデルの代替としてコルモゴロフ・アルノルドネットワーク(KAN)が提案されている。
Kans は MLP と比較して精度と解釈性を改善することを約束している。
そこで本研究では,kan-Mixersと呼ばれるミキサーを主層として設計し,その性能評価を画像分類タスクで行うことを目的としている。
その結果,kan-MixersモデルはFashion-MNISTおよびCIFAR-10データセットにおいて,平均精度0.9030と0.6980のMLP,MLP-Mixer,Kanモデルよりも優れていた。
関連論文リスト
- How to Learn More? Exploring Kolmogorov-Arnold Networks for Hyperspectral Image Classification [26.37105279142761]
Kolmogorov-Arnold Networks (KANs) は視覚変換器 (ViTs) の代替として提案された。
本研究では,複雑なハイパースペクトル画像(HSI)データ分類におけるkansの有効性を評価する。
そこで我々は,1D,2D,3Dkanを用いたハイブリッドアーキテクチャを開発し,提案する。
論文 参考訳(メタデータ) (2024-06-22T03:31:02Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文 参考訳(メタデータ) (2022-01-28T12:43:14Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。