論文の概要: SplitMixer: Fat Trimmed From MLP-like Models
- arxiv url: http://arxiv.org/abs/2207.10255v2
- Date: Mon, 25 Jul 2022 17:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 11:28:12.255460
- Title: SplitMixer: Fat Trimmed From MLP-like Models
- Title(参考訳): SplitMixer: MLPライクなモデルの脂肪
- Authors: Ali Borji and Sikun Lin
- Abstract要約: 視覚認識のためのシンプルで軽量な等方的アーキテクチャであるSplitMixerを提案する。
情報(空間混合)とチャネル(チャネル混合)の2種類のインターリーブ畳み込み操作を含む。
- 参考スコア(独自算出の注目度): 53.12472550578278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SplitMixer, a simple and lightweight isotropic MLP-like
architecture, for visual recognition. It contains two types of interleaving
convolutional operations to mix information across spatial locations (spatial
mixing) and channels (channel mixing). The first one includes sequentially
applying two depthwise 1D kernels, instead of a 2D kernel, to mix spatial
information. The second one is splitting the channels into overlapping or
non-overlapping segments, with or without shared parameters, and applying our
proposed channel mixing approaches or 3D convolution to mix channel
information. Depending on design choices, a number of SplitMixer variants can
be constructed to balance accuracy, the number of parameters, and speed. We
show, both theoretically and experimentally, that SplitMixer performs on par
with the state-of-the-art MLP-like models while having a significantly lower
number of parameters and FLOPS. For example, without strong data augmentation
and optimization, SplitMixer achieves around 94% accuracy on CIFAR-10 with only
0.28M parameters, while ConvMixer achieves the same accuracy with about 0.6M
parameters. The well-known MLP-Mixer achieves 85.45% with 17.1M parameters. On
CIFAR-100 dataset, SplitMixer achieves around 73% accuracy, on par with
ConvMixer, but with about 52% fewer parameters and FLOPS. We hope that our
results spark further research towards finding more efficient vision
architectures and facilitate the development of MLP-like models. Code is
available at https://github.com/aliborji/splitmixer.
- Abstract(参考訳): 視覚認識のためのシンプルで軽量なMLPのようなアーキテクチャであるSplitMixerを提案する。
空間的な場所(空間的混合)とチャネル(チャネル混合)の情報を混在させる2種類の畳み込み操作を含む。
最初の1つは、2Dカーネルの代わりに2つの奥行き1Dカーネルを順次適用して空間情報を混合することを含む。
2つめは、共有パラメータの有無にかかわらず、チャネルをオーバーラップまたは非オーバーラップセグメントに分割し、提案するチャネル混合アプローチまたは3d畳み込みを適用してチャネル情報を混合することである。
設計選択によっては、精度、パラメータ数、速度のバランスをとるために、多くのSplitMixer変種を構築することができる。
理論的にも実験的にも,SplitMixerは最先端のMLPライクなモデルと同等に動作し,パラメータやFLOPSは極めて少ない。
例えば、強力なデータ拡張と最適化なしに、SplitMixerはわずか0.28MパラメータでCIFAR-10で約94%の精度を達成し、ConvMixerは0.6Mパラメータで同じ精度を達成する。
MLP-Mixerは85.45%、パラメータは17.1Mである。
CIFAR-100データセットでは、SplitMixerは約73%の精度で、ConvMixerと同等だが、パラメータとFLOPSは52%少ない。
この結果が、より効率的な視覚アーキテクチャの発見と、MDPのようなモデルの開発を促進するためのさらなる研究のきっかけになることを願っている。
コードはhttps://github.com/aliborji/splitmixerで入手できる。
関連論文リスト
- MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding [64.65145700121442]
MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。
提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。
MM-Mixingは,様々な学習シナリオにおけるベースライン性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-28T18:44:15Z) - Mixer is more than just a model [23.309064032922507]
本研究は、ロールタイムとハーミットFFT(ASM-RH)を用いたオーディオスペクトログラムミキサーという新しいモデルを導入することで、音声認識の領域に焦点を当てる。
実験により、ASM-RHは音声データに特に適しており、複数の分類タスクで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-02-28T02:45:58Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文 参考訳(メタデータ) (2022-01-28T12:43:14Z) - Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文 参考訳(メタデータ) (2022-01-24T16:42:56Z) - PointMixer: MLP-Mixer for Point Cloud Understanding [74.694733918351]
チャネルミキシングとトークンミキシングの概念は、視覚認識タスクにおいて顕著なパフォーマンスを達成する。
画像とは異なり、点雲は本質的にスパースで、秩序がなく、不規則であり、点雲の理解にユニバーサルミクサーを直接使用することを制限する。
本稿では,非構造化3次元点間の情報共有を容易にする共通点集合演算子であるPointMixerを提案する。
論文 参考訳(メタデータ) (2021-11-22T13:25:54Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - FMix: Enhancing Mixed Sample Data Augmentation [5.820517596386667]
近年,Mixed Sample Data Augmentation (MSDA) が注目されている。
ここでは、MixUpがCutMixのように学習した関数を歪めていることを示す。
低周波画像にしきい値を適用したランダムなバイナリマスクを用いたMSDAであるFMixを提案する。
論文 参考訳(メタデータ) (2020-02-27T11:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。