Fugu-MT 論文翻訳(概要): SCHEME: Scalable Channer Mixer for Vision Transformers

論文の概要: SCHEME: Scalable Channer Mixer for Vision Transformers

arxiv url: http://arxiv.org/abs/2312.00412v1
Date: Fri, 1 Dec 2023 08:22:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 15:17:35.314299
Title: SCHEME: Scalable Channer Mixer for Vision Transformers
Title（参考訳）: scheme: 視覚トランスフォーマーのためのスケーラブルなチャンナーミキサー
Authors: Deepak Sridhar, Yunsheng Li, Nuno Vasconcelos
Abstract要約: 視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。特徴混合が高密度接続に取って代わり,これをブロック対角構造で確認できるかどうかを検討した。画像分類、オブジェクト検出、セマンティックセグメンテーション(セグメンテーション)の実験は、ViTのバックボーンが異なるが、確実に精度が向上することを示した。
参考スコア（独自算出の注目度）: 59.12372477493569
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision Transformers have received significant attention due to their impressive performance in many vision tasks. While the token mixer or attention block has been studied in great detail, the channel mixer or feature mixing block (FFN or MLP) has not been explored in depth albeit it accounts for a bulk of the parameters and computation in a model. In this work, we study whether sparse feature mixing can replace the dense connections and confirm this with a block diagonal MLP structure that improves the accuracy by supporting larger expansion ratios. To improve the feature clusters formed by this structure and thereby further improve the accuracy, a lightweight, parameter-free, channel covariance attention (CCA) mechanism is introduced as a parallel branch during training. This design of CCA enables gradual feature mixing across channel groups during training whose contribution decays to zero as the training progresses to convergence. This allows the CCA block to be discarded during inference, thus enabling enhanced performance with no additional computational cost. The resulting $\textit{Scalable CHannEl MixEr}$ (SCHEME) can be plugged into any ViT architecture to obtain a gamut of models with different trade-offs between complexity and performance by controlling the block diagonal structure size in the MLP. This is shown by the introduction of a new family of SCHEMEformer models. Experiments on image classification, object detection, and semantic segmentation, with different ViT backbones, consistently demonstrate substantial accuracy gains over existing designs, especially under lower FLOPs regimes. For example, the SCHEMEformer establishes a new SOTA of 79.7% accuracy for ViTs using pure attention mixers on ImageNet-1K at 1.77G FLOPs.
Abstract（参考訳）: 視覚トランスフォーマーは、多くの視覚タスクで印象的な性能のため、大きな注目を集めている。トークンミキサーや注意ブロックは、非常に詳細に研究されているが、チャネルミキサーや特徴混合ブロック(ffnまたはmlp)は、モデル内のパラメータと計算の大部分を担っているにもかかわらず、深くは探索されていない。本研究では,より広い拡張率をサポートすることで精度を向上させるブロック対角形mlp構造を用いて,分散特徴混合が密接な接続を置き換えることができるか検討する。この構造により形成された特徴クラスタを改善し、精度をさらに向上するため、トレーニング中に並列ブランチとして軽量でパラメータフリーなチャネル共分散アテンション(CCA)機構を導入する。このCCAの設計は、訓練が収束するにつれて寄与がゼロになる訓練中、チャネル群間の段階的な特徴混合を可能にする。これにより、推論中にCAAブロックを破棄することができ、計算コストを増大させることなく性能を向上させることができる。結果として生じる$\textit{Scalable CHannEl MixEr}$ (SCHEME) は任意の ViT アーキテクチャにプラグインすることができ、MLP のブロック対角構造サイズを制御することで、複雑性と性能のトレードオフが異なるモデルのガムが得られる。これはSCHEMEformerモデルの新しいファミリーの導入によって示される。 vitバックボーンの異なる画像分類、オブジェクト検出、セマンティックセグメンテーションの実験は、既存の設計、特に低いフロップス領域において、一貫して実質的な精度向上を示している。例えば、SCHEMEformer は ImageNet-1K の1.77G FLOP で純アテンションミキサーを用いて ViT の 79.7% の精度の SOTA を確立する。

関連論文リスト

ViKANformer: Embedding Kolmogorov Arnold Networks in Vision Transformers for Pattern-Based Learning [0.0]
視覚変換器(ViT)はパッチ埋め込みに自己注意を適用して画像分類を行う。本稿では,サブレイヤをKAN拡張に置き換えるViKANformerを提案する。
論文参考訳（メタデータ） (2025-03-03T03:10:26Z)
PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-10T10:16:03Z)
Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking [6.9366619419210656]
トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
論文参考訳（メタデータ） (2024-06-18T02:42:19Z)
CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting [18.50360049235537]
ステートスペースモデルであるMambaは、堅牢なシーケンスと機能ミキシング機能を備えている。チャネル間の依存関係のキャプチャは、時系列予測のパフォーマンス向上に不可欠である。時系列予測に適した改良されたマンバ変種を導入する。
論文参考訳（メタデータ） (2024-06-08T01:32:44Z)
DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文参考訳（メタデータ） (2024-06-05T06:18:03Z)
Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-11-28T11:23:34Z)
TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文参考訳（メタデータ） (2023-06-14T06:26:23Z)
Parameterization of Cross-Token Relations with Relative Positional Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文参考訳（メタデータ） (2022-07-15T04:18:06Z)
Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。 6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文参考訳（メタデータ） (2022-03-14T04:32:19Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文参考訳（メタデータ） (2021-08-30T06:09:02Z)
Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文参考訳（メタデータ） (2021-06-28T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。