Fugu-MT 論文翻訳(概要): CS-Mixer: A Cross-Scale Vision MLP Model with Spatial-Channel Mixing

論文の概要: CS-Mixer: A Cross-Scale Vision MLP Model with Spatial-Channel Mixing

arxiv url: http://arxiv.org/abs/2308.13363v2
Date: Sun, 14 Jan 2024 18:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 02:01:25.403061
Title: CS-Mixer: A Cross-Scale Vision MLP Model with Spatial-Channel Mixing
Title（参考訳）: CS-Mixer:空間-チャネル混合を用いた大規模視覚MLPモデル
Authors: Jonathan Cui, David A. Araujo, Suman Saha, Md. Faisal Kabir
Abstract要約: 本稿では,局所的および大域的集約による空間チャネル混合のための動的低ランク変換を学習する階層的ビジョンを提案する。我々の最大のモデルであるCS-Mixer-Lは、13.7 GFLOPと94Mパラメータを持つImageNet-1kで83.2%の精度に達した。
参考スコア（独自算出の注目度）: 2.1016271540149636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite their simpler information fusion designs compared with Vision Transformers and Convolutional Neural Networks, Vision MLP architectures have demonstrated strong performance and high data efficiency in recent research. However, existing works such as CycleMLP and Vision Permutator typically model spatial information in equal-size spatial regions and do not consider cross-scale spatial interactions. Further, their token mixers only model 1- or 2-axis correlations, avoiding 3-axis spatial-channel mixing due to its computational demands. We therefore propose CS-Mixer, a hierarchical Vision MLP that learns dynamic low-rank transformations for spatial-channel mixing through cross-scale local and global aggregation. The proposed methodology achieves competitive results on popular image recognition benchmarks without incurring substantially more compute. Our largest model, CS-Mixer-L, reaches 83.2% top-1 accuracy on ImageNet-1k with 13.7 GFLOPs and 94 M parameters.
Abstract（参考訳）: Vision TransformersやConvolutional Neural Networksに比べて情報融合設計はシンプルだが、Vision MLPアーキテクチャは最近の研究で高い性能と高いデータ効率を示している。しかし、cyclemlpやvision permutatorのような既存の作品は、通常等サイズの空間領域における空間情報をモデル化し、クロススケールな空間的相互作用を考慮しない。さらに、トークンミキサーは1軸または2軸の相関のみをモデル化し、3軸の空間チャネル混合を避ける。そこで我々は,空間チャネル混合のための動的低ランク変換を局所的および大域的集約を通じて学習する階層型視覚MLPCS-Mixerを提案する。提案手法は,画像認識ベンチマークにおいて,計算量を大幅に増やさずに競合する結果を得る。我々の最大のモデルであるCS-Mixer-Lは、13.7 GFLOPと94Mパラメータを持つImageNet-1kで83.2%の精度に達した。

関連論文リスト

STEAM: Squeeze and Transform Enhanced Attention Module [1.3370933421481221]
本稿では,マルチヘッドグラフ変換器の概念を利用して,チャネルと空間の注意の両方をモデル化するグラフベースの手法を提案する。 STEAMは標準のResNet-50モデルよりも2%精度が向上し、GFLOPはわずかに増加した。 STEAMは、GFLOPの3倍の削減を達成しつつ、リードモジュールECAとGCTの精度で性能を向上する。
論文参考訳（メタデータ） (2024-12-12T07:38:10Z)
D2-MLP: Dynamic Decomposed MLP Mixer for Medical Image Segmentation [12.470164287197454]
畳み込みニューラルネットワークは医療画像の様々なセグメンテーションタスクで広く利用されている。畳み込み操作の本質的な局所性のため、グローバルな特徴を適応的に学習することが課題となっている。これらの制約に対処する新しい動的分解ミキサーモジュールを提案する。
論文参考訳（メタデータ） (2024-09-13T15:16:28Z)
Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文参考訳（メタデータ） (2024-07-18T17:59:58Z)
DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring [1.5124439914522694]
DeblurDiNATは汎用的で効率的なエンコーダ・デコーダ変換器であり、地上の真実に近いクリーンな画像を復元する。本稿では,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案する。
論文参考訳（メタデータ） (2024-03-19T21:31:31Z)
Superpixel Graph Contrastive Clustering with Semantic-Invariant Augmentations for Hyperspectral Images [64.72242126879503]
ハイパースペクトル画像(HSI)クラスタリングは重要な課題だが難しい課題である。まず3次元と2次元のハイブリッド畳み込みニューラルネットワークを用いてHSIの高次空間およびスペクトルの特徴を抽出する。次に,超画素グラフの対比クラスタリングモデルを設計し,識別的超画素表現を学習する。
論文参考訳（メタデータ） (2024-03-04T07:40:55Z)
SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文参考訳（メタデータ） (2023-12-01T08:22:34Z)
MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文参考訳（メタデータ） (2022-03-02T04:20:59Z)
Mixing and Shifting: Exploiting Global and Local Dependencies in Vision MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。 MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文参考訳（メタデータ） (2022-02-14T06:53:48Z)
DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文参考訳（メタデータ） (2022-01-28T12:43:14Z)
A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文参考訳（メタデータ） (2021-08-30T06:09:02Z)
Combining Spatial Clustering with LSTM Speech Models for Multichannel Speech Enhancement [3.730592618611028]
LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
論文参考訳（メタデータ） (2020-12-02T22:37:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。