Fugu-MT 論文翻訳(概要): SCHEME: Scalable Channer Mixer for Vision Transformers

論文の概要: SCHEME: Scalable Channer Mixer for Vision Transformers

arxiv url: http://arxiv.org/abs/2312.00412v2
Date: Mon, 25 Mar 2024 23:40:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 00:21:53.187659
Title: SCHEME: Scalable Channer Mixer for Vision Transformers
Title（参考訳）: SCHEME:視覚変換器用のスケーラブルチャンナーミキサー
Authors: Deepak Sridhar, Yunsheng Li, Nuno Vasconcelos,
Abstract要約: 視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。特徴混合が高密度接続に取って代わり,これをブロック対角構造で確認できるかどうかを検討した。 SCHEMEformerの新しいモデル群は、FLOPS、精度、モデルサイズ、精度、スループットの新たなフロンティアを確立する。
参考スコア（独自算出の注目度）: 52.605868919281086
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision Transformers have received significant attention due to their impressive performance in many vision tasks. While the token mixer or attention block has been studied in great detail, the channel mixer or feature mixing block (FFN or MLP) has not been explored in depth albeit it accounts for a bulk of the parameters and computation in a model. In this work, we study whether sparse feature mixing can replace the dense connections and confirm this with a block diagonal MLP structure that improves the accuracy by supporting larger expansion ratios. To improve the feature clusters formed by this structure and thereby further improve the accuracy, a lightweight, parameter-free, channel covariance attention (CCA) mechanism is introduced as a parallel branch during training. This design of CCA enables gradual feature mixing across channel groups during training whose contribution decays to zero as the training progresses to convergence. This allows the CCA block to be discarded during inference, thus enabling enhanced performance with no additional computational cost. The resulting $\textit{Scalable CHannEl MixEr}$ (SCHEME) can be plugged into any ViT architecture to obtain a gamut of models with different trade-offs between complexity and performance by controlling the block diagonal structure size in the MLP. This is shown by the introduction of a new family of SCHEMEformer models that is shown to establish new Pareto frontiers for accuracy vs FLOPS, accuracy vs model size, and accuracy vs throughput, especially for fast transformers of small model size. For example, the SCHEMEformer establishes a new SOTA of 79.7% accuracy for ViTs using pure attention mixers on ImageNet-1K at 1.77G FLOPs.
Abstract（参考訳）: 視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。トークンミキサー (トークンミキサー) やアテンションブロック (アテンションブロック) の研究は盛んに行われているが, チャネルミキサー (FFN) や特徴ミキシングブロック (MLP) は, モデル内のパラメータや計算の大部分を占めるにもかかわらず, 深くは検討されていない。本研究は,密接な接続をスパルス混合で置き換えることができ,これをブロック対角形MLP構造で確認し,拡張比を大きくして精度を向上できるかどうかを考察する。この構造により形成された特徴クラスタを改善し、精度をさらに向上するため、トレーニング中に並列ブランチとして軽量でパラメータフリーなチャネル共分散アテンション(CCA)機構を導入する。このCCAの設計は、訓練が収束するにつれて寄与がゼロになる訓練中、チャネル群間の段階的な特徴混合を可能にする。これにより、推論中にCAAブロックを破棄することができ、計算コストを増大させることなく性能を向上させることができる。結果として生じる$\textit{Scalable CHannEl MixEr}$ (SCHEME) は、任意の ViT アーキテクチャにプラグインされ、MLPのブロック対角構造サイズを制御することで、複雑性と性能のトレードオフが異なるモデルのガムが得られる。これは新しいSCHEMEformerモデルの導入によって示され、特に小型モデルサイズの高速トランスフォーマーにおいて、精度対FLOPS、精度対モデルサイズ、精度対スループットの新たなParetoフロンティアを確立することが示されている。例えば、SCHEMEformer は ImageNet-1K の1.77G FLOP で純アテンションミキサーを用いて ViT の 79.7% の精度の SOTA を確立する。

関連論文リスト

ViKANformer: Embedding Kolmogorov Arnold Networks in Vision Transformers for Pattern-Based Learning [0.0]
視覚変換器(ViT)はパッチ埋め込みに自己注意を適用して画像分類を行う。本稿では,サブレイヤをKAN拡張に置き換えるViKANformerを提案する。
論文参考訳（メタデータ） (2025-03-03T03:10:26Z)
PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-10T10:16:03Z)
Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking [6.9366619419210656]
トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
論文参考訳（メタデータ） (2024-06-18T02:42:19Z)
CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting [18.50360049235537]
ステートスペースモデルであるMambaは、堅牢なシーケンスと機能ミキシング機能を備えている。チャネル間の依存関係のキャプチャは、時系列予測のパフォーマンス向上に不可欠である。時系列予測に適した改良されたマンバ変種を導入する。
論文参考訳（メタデータ） (2024-06-08T01:32:44Z)
DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文参考訳（メタデータ） (2024-06-05T06:18:03Z)
Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-11-28T11:23:34Z)
TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文参考訳（メタデータ） (2023-06-14T06:26:23Z)
Parameterization of Cross-Token Relations with Relative Positional Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文参考訳（メタデータ） (2022-07-15T04:18:06Z)
Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。 6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文参考訳（メタデータ） (2022-03-14T04:32:19Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文参考訳（メタデータ） (2021-08-30T06:09:02Z)
Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文参考訳（メタデータ） (2021-06-28T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。