論文の概要: Using Caterpillar to Nibble Small-Scale Images
- arxiv url: http://arxiv.org/abs/2305.17644v1
- Date: Sun, 28 May 2023 06:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:48:15.320968
- Title: Using Caterpillar to Nibble Small-Scale Images
- Title(参考訳): キャタピラーを使って小さな画像をくすぐる
- Authors: Jin Sun, Xiaoshuang Shi, Zhiyuan Weng, Kaidi Xu, Heng Tao Shen and
Xiaofeng Zhu
- Abstract要約: 本稿では,局所性の帰納バイアスを生かしたShifted-Pillars-Concatenation (SPC) の新たなモジュールを提案する。
ピラーズ・シフト(Pillars-Shift)は、画像内のすべての柱を異なる方向に移動してコピーを生成するもので、ピラーズ・コンカライゼーション(Pillars-Concatenation)は、シフトしたコピーの離散シフト地区からローカル情報をキャプチャする。
実験では、人気のある小規模データセットに強力なスケーラビリティと優れたパフォーマンスを示し、ImageNet-1Kと最近の最先端メソッドとの競合性能を示している。
- 参考スコア(独自算出の注目度): 74.16552035338215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, MLP-based models have become popular and attained significant
performance on medium-scale datasets (e.g., ImageNet-1k). However, their direct
applications to small-scale images remain limited. To address this issue, we
design a new MLP-based network, namely Caterpillar, by proposing a key module
of Shifted-Pillars-Concatenation (SPC) for exploiting the inductive bias of
locality. SPC consists of two processes: (1) Pillars-Shift, which is to shift
all pillars within an image along different directions to generate copies, and
(2) Pillars-Concatenation, which is to capture the local information from
discrete shift neighborhoods of the shifted copies. Extensive experiments
demonstrate its strong scalability and superior performance on popular
small-scale datasets, and the competitive performance on ImageNet-1K to recent
state-of-the-art methods.
- Abstract(参考訳): 近年、MLPベースのモデルは人気を博し、中規模のデータセット(例えば ImageNet-1k)で大きなパフォーマンスを達成した。
しかし、小規模な画像への直接の応用は限られている。
この問題に対処するため,我々は,局所性の帰納的バイアスを生かしたShifted-Pillars-Concatenation (SPC) のキーモジュールを提案することで,新たなMLPベースのネットワークであるCaterpillarを設計する。
spcは、画像内のすべての柱を異なる方向に沿って移動させてコピーを生成するピラーシフトと、シフトされたコピーの離散シフト近傍から局所情報をキャプチャするピラー結合の2つのプロセスからなる。
大規模な実験では、人気のある小規模データセット上でのスケーラビリティと優れたパフォーマンス、ImageNet-1Kの最近の最先端メソッドとの競合性能が実証されている。
関連論文リスト
- BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons [37.28828605119602]
本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-29T02:43:41Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。