論文の概要: HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction
- arxiv url: http://arxiv.org/abs/2401.17948v1
- Date: Wed, 31 Jan 2024 15:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:05:54.751193
- Title: HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction
- Title(参考訳): hyperz$\cdot$z$\cdot$wオペレータは、フルコンテキストインタラクションのためにスローファストネットワークを接続する
- Authors: Harvie Zhang
- Abstract要約: 自己注意機構は、ドット製品ベースのアクティベーションを通じてプログラムされた大きな暗黙の重み行列を利用して、訓練可能なパラメータがほとんどないため、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性について検討する。
このモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するための局所的なフィードバックエラー、安定なゼロ平均機能、より高速なトレーニング収束、より少ないモデルパラメータなど、優れた特性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The self-attention mechanism utilizes large implicit weight matrices,
programmed through dot product-based activations with very few trainable
parameters, to enable long sequence modeling. In this paper, we investigate the
possibility of discarding residual learning by employing large implicit kernels
to achieve full context interaction at each layer of the network. To accomplish
it, we introduce coordinate-based implicit MLPs as a slow network to generate
hyper-kernels for another fast convolutional network. To get context-varying
weights for fast dynamic encoding, we propose a
$\mathrm{Hyper}\mathcal{Z{\cdot}Z{\cdot}W}$ operator that connects
hyper-kernels ($\mathcal{W}$) and hidden activations ($\mathcal{Z}$) through
simple elementwise multiplication, followed by convolution of $\mathcal{Z}$
using the context-dependent $\mathcal{W}$. Based on this design, we present a
novel Terminator architecture that integrates hyper-kernels of different sizes
to produce multi-branch hidden representations for enhancing the feature
extraction capability of each layer. Additionally, a bottleneck layer is
employed to compress the concatenated channels, allowing only valuable
information to propagate to the subsequent layers. Notably, our model
incorporates several innovative components and exhibits excellent properties,
such as introducing local feedback error for updating the slow network, stable
zero-mean features, faster training convergence, and fewer model parameters.
Extensive experimental results on pixel-level 1D and 2D image classification
benchmarks demonstrate the superior performance of our architecture.
- Abstract(参考訳): セルフアテンション機構は、非常に少ない訓練可能なパラメータでドット製品ベースのアクティベーションによってプログラムされた、大きな暗黙の重み行列を利用して、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性を検討する。
これを実現するために,遅いネットワークとして座標ベースの暗黙的mlpを導入し,他の高速畳み込みネットワークに対してハイパーカーネルを生成する。
高速動的符号化のための文脈変動重みを得るために、超カーネル(\mathcal{w}$)と隠れたアクティベーション(\mathcal{z}$)を単純な要素分割乗算で接続する$\mathrm{hyper}\mathcal{z{\cdot}z{\cdot}w}$演算子を提案し、コンテキスト依存の$\mathcal{w}$を用いて$\mathcal{z}$の畳み込みを行う。
この設計に基づいて,異なるサイズのハイパーカーネルを統合し,各レイヤの特徴抽出能力を向上させるマルチブランチ隠れ表現を生成する,新しいターミネータアーキテクチャを提案する。
さらに、結合されたチャネルを圧縮するためにボトルネック層が用いられ、価値ある情報だけが次のレイヤに伝播できる。
特に,本モデルは,いくつかの革新的なコンポーネントを取り入れ,低速ネットワーク更新のための局所フィードバックエラーの導入,安定なゼロ平均機能,より高速なトレーニング収束,モデルパラメータの削減など,優れた特性を示す。
ピクセルレベル1dおよび2d画像分類ベンチマークの広範な実験結果から,アーキテクチャの優れた性能を示す。
関連論文リスト
- Tiled Bit Networks: Sub-Bit Neural Network Compression Through Reuse of Learnable Binary Vectors [4.95475852994362]
本稿では,バイナリ重み付きニューラルネットワークのサブビット圧縮を実現するために,ビット列を持つタイル型ニューラルネットワーク層に対する新しい量子化方式を提案する。
私たちは完全に接続された層と畳み込み層の両方にアプローチを採用しています。
論文 参考訳(メタデータ) (2024-07-16T15:55:38Z) - "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - SymbolNet: Neural Symbolic Regression with Adaptive Dynamic Pruning [1.0356366043809717]
モデル重み,入力特徴,数学的演算子を1つのトレーニングプロセスで動的に刈り取ることができる新しいフレームワークにおいて,記号回帰に対するニューラルネットワークアプローチを提案する。
提案手法は,計算資源制約の厳しい環境下での高次元データセットに対して,FPGA上でのナノ秒スケールレイテンシによる高速な推論を実現する。
論文 参考訳(メタデータ) (2024-01-18T12:51:38Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Dynamic ConvNets on Tiny Devices via Nested Sparsity [3.0313758880048765]
この作業では、Nested Sparse ConvNetsを構築するための、新たなトレーニングと圧縮パイプラインが導入されている。
Nested Sparse ConvNetは、Nのスパースサブネットワークとネストウェイトサブセットを含む単一のConvNetアーキテクチャで構成されている。
ARM-M7マイクロコントローラユニットのイメージ分類とオブジェクト検出タスクのテスト。
論文 参考訳(メタデータ) (2022-03-07T12:07:02Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Sparse Coding Driven Deep Decision Tree Ensembles for Nuclear
Segmentation in Digital Pathology Images [15.236873250912062]
デジタル病理画像セグメンテーションタスクにおいて、ディープニューラルネットワークと高い競争力を持つ、容易に訓練されながら強力な表現学習手法を提案する。
ScD2TEと略すこの手法はスパースコーディング駆動の深層決定木アンサンブルと呼ばれ、表現学習の新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-13T02:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。