論文の概要: Dimension Mixer: A Generalized Method for Structured Sparsity in Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2311.18735v1
- Date: Thu, 30 Nov 2023 17:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:33:20.929596
- Title: Dimension Mixer: A Generalized Method for Structured Sparsity in Deep
Neural Networks
- Title(参考訳): 次元混合器:ディープニューラルネットワークにおける構造空間の一般化手法
- Authors: Suman Sapkota, Binod Bhattarai
- Abstract要約: CNN、Transformers、Fourier-Mixersは、類似点と相違点を探す動機になりました。
結合流とバタフライ変換の研究は、部分的および階層的な信号混合スキームが効率的な近似に十分であることを示している。
グループワイズ,非線形,多線形,学習可能な混合方式について検討し,それらが多くの標準的なニューラルネットワークアーキテクチャに相補的であることを発見した。
- 参考スコア(独自算出の注目度): 13.080844124094696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of multiple neural architectures like CNNs, Transformers,
and MLP-Mixers motivated us to look for similarities and differences between
them. We found that these architectures can be interpreted through the lens of
a general concept of dimension mixing. Research on coupling flows and the
butterfly transform shows that partial and hierarchical signal mixing schemes
are sufficient for efficient and expressive function approximation. In this
work, we study group-wise sparse, non-linear, multi-layered and learnable
mixing schemes of inputs and find that they are complementary to many standard
neural architectures. Following our observations and drawing inspiration from
the Fast Fourier Transform, we generalize Butterfly Structure to use non-linear
mixer function allowing for MLP as mixing function called Butterfly MLP. We
were also able to mix along sequence dimension for Transformer-based
architectures called Butterfly Attention. Experiments on CIFAR and LRA datasets
demonstrate that the proposed Non-Linear Butterfly Mixers are efficient and
scale well when the host architectures are used as mixing function.
Additionally, we propose Patch-Only MLP-Mixer for processing spatial 2D signals
demonstrating a different dimension mixing strategy.
- Abstract(参考訳): 最近のCNN、Transformer、MLP-Mixersといった複数のニューラルネットワークの成功は、それらの類似点と相違点を探す動機となった。
これらのアーキテクチャは、次元混合の一般的な概念のレンズを通して解釈できることがわかった。
結合流れとバタフライ変換の研究により、部分的および階層的信号混合スキームは効率的かつ表現的関数近似に十分であることが示されている。
本研究では,グループワイズ,非線形,多層,学習可能な入力混合方式について検討し,それらが多くの標準的なニューラルネットワークアーキテクチャに相補的であることを示す。
我々は,Fast Fourier Transform からインスピレーションを得た後,Butterfly Structure を一般化し,Butterfly MLP と呼ばれる混合関数として MLP を可能にする非線形ミキサー関数を用いた。
また、TransformerベースのアーキテクチャであるButterfly Attentionのシーケンスディメンションと組み合わせることができました。
CIFARとLRAデータセットの実験により、ホストアーキテクチャを混合関数として使用する場合、提案したNon-Linear Butterfly Mixerは効率的でスケール可能であることが示された。
さらに,異なる次元混合戦略を示す空間2次元信号を処理するパッチのみのmlpミキサを提案する。
関連論文リスト
- SCHEME: Scalable Channer Mixer for Vision Transformers [59.12372477493569]
視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。
特徴混合が高密度接続に取って代わり,これをブロック対角構造で確認できるかどうかを検討した。
画像分類、オブジェクト検出、セマンティックセグメンテーション(セグメンテーション)の実験は、ViTのバックボーンが異なるが、確実に精度が向上することを示した。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - iMixer: hierarchical Hopfield network implies an invertible, implicit
and iterative MLP-Mixer [0.0]
我々はニューラルミクサーモデルの新たな一般化であるiMixerを紹介する。
画像分類タスクにおいて,様々なデータセットを用いてモデル性能を評価する。
結果として、ホップフィールド・ネットワークとミキサー・モデルとの対応は、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則となることが示唆された。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - ButterflyFlow: Building Invertible Layers with Butterfly Matrices [80.83142511616262]
そこで本研究では,蝶の層に基づく可逆線形層を新たに提案する。
可逆なバタフライ層をベースとして,バタフライフローと呼ばれる新しい正規化フローモデルを構築した。
論文 参考訳(メタデータ) (2022-09-28T01:58:18Z) - QbyE-MLPMixer: Query-by-Example Open-Vocabulary Keyword Spotting using
MLPMixer [10.503972720941693]
現在のキーワードスポッティングシステムは、通常、大量の事前定義されたキーワードで訓練される。
本稿では,Mixerモデルアーキテクチャに基づく純粋語彙ニューラルネットワークを提案する。
提案モデルでは,ベースラインモデルと比較してパラメータやMACが小さい。
論文 参考訳(メタデータ) (2022-06-23T18:18:44Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - Sparse Linear Networks with a Fixed Butterfly Structure: Theory and
Practice [4.3400407844814985]
本稿では,バタフライネットワークに基づくアーキテクチャにより,ニューラルネットワーク内の密度線形層を置き換えることを提案する。
NLPデータと視覚データの両方の教師付き予測を含む実験のコレクションでは、これは単に既存のよく知られたアーキテクチャにマッチする結果をもたらすだけでなく、時には優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-17T09:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。