論文の概要: Rethinking Efficacy of Softmax for Lightweight Non-Local Neural Networks
- arxiv url: http://arxiv.org/abs/2207.13423v1
- Date: Wed, 27 Jul 2022 10:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 12:52:28.617977
- Title: Rethinking Efficacy of Softmax for Lightweight Non-Local Neural Networks
- Title(参考訳): 軽量非局所ニューラルネットワークにおけるsoftmaxの有効性再考
- Authors: Yooshin Cho, Youngsoo Kim, Hanbyel Cho, Jaesung Ahn, Hyeong Gwon Hong,
Junmo Kim
- Abstract要約: 非ローカル(NL)ブロックは、グローバルコンテキストをモデル化する機能を示す人気のあるモジュールである。
入力特徴ベクトルの大きさと方向がベクトル間の注意に適切に影響を及ぼすかどうかを経験的に分析する。
ソフトマックス操作をスケーリング係数に置き換えることで,CIFAR-10,CIFAR-100,Tiny-ImageNetの性能向上を実証した。
- 参考スコア(独自算出の注目度): 22.240253892754932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-local (NL) block is a popular module that demonstrates the capability to
model global contexts. However, NL block generally has heavy computation and
memory costs, so it is impractical to apply the block to high-resolution
feature maps. In this paper, to investigate the efficacy of NL block, we
empirically analyze if the magnitude and direction of input feature vectors
properly affect the attention between vectors. The results show the inefficacy
of softmax operation which is generally used to normalize the attention map of
the NL block. Attention maps normalized with softmax operation highly rely upon
magnitude of key vectors, and performance is degenerated if the magnitude
information is removed. By replacing softmax operation with the scaling factor,
we demonstrate improved performance on CIFAR-10, CIFAR-100, and Tiny-ImageNet.
In Addition, our method shows robustness to embedding channel reduction and
embedding weight initialization. Notably, our method makes multi-head attention
employable without additional computational cost.
- Abstract(参考訳): 非ローカル(NL)ブロックは、グローバルコンテキストをモデル化する機能を示す人気のあるモジュールである。
しかし、NLブロックは一般に計算量とメモリコストが高いため、高解像度の特徴写像にブロックを適用することは現実的ではない。
本稿では,NLブロックの有効性を検討するために,入力特徴ベクトルの大きさと方向がベクトル間の注意に適切に影響を及ぼすかどうかを実証的に分析する。
その結果,NLブロックのアテンションマップの正規化に一般的に使用されるソフトマックス演算の有効性が示された。
ソフトマックス演算で正規化されたアテンションマップは、キーベクトルの大きさに大きく依存しており、マグニチュード情報が削除されると性能が低下する。
ソフトマックス操作をスケーリング係数に置き換えることで,CIFAR-10,CIFAR-100,Tiny-ImageNetの性能向上を示す。
また, 本手法は, チャネル縮小と重み初期化に対するロバスト性を示す。
特に, 計算コストを増すことなくマルチヘッドアテンションを活用できる。
関連論文リスト
- Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention [19.618556742380086]
固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。
有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:38:13Z) - Compressing the Backward Pass of Large-Scale Neural Architectures by
Structured Activation Pruning [0.0]
ディープニューラルネットワーク(DNN)におけるスパシティはソリューションとして注目されている。
この研究は、訓練中のメモリ消費を減らすことを目的として、短命の空間性に焦点を当てている。
大規模ニューラルアーキテクチャのトレーニング速度,精度,メモリ使用量を評価することにより,アクティベーションプルーニングの有効性を報告する。
論文 参考訳(メタデータ) (2023-11-28T15:31:31Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Efficient Non-Local Contrastive Attention for Image Super-Resolution [48.093500219958834]
非局所的注意(NLA)は、自然画像の内在的特徴相関を利用して、単一画像超解法(SISR)に大きな改善をもたらす。
本稿では,長期視覚モデリングを行い,より関連性の高い非局所的特徴を活用するための,効率的な非局所的コントラスト注意(ENLCA)を提案する。
論文 参考訳(メタデータ) (2022-01-11T05:59:09Z) - SiMaN: Sign-to-Magnitude Network Binarization [165.5630656849309]
重みバイナライゼーションは、高倍率重みを+1s、0sに符号化することで分析ソリューションを提供する。
二元化ネットワークの学習重みは、エントロピーを許さないラプラシアン分布に概ね従うことが証明される。
CIFAR-10 と ImageNet を用いて,シマナライゼーション (SiMaN) と呼ばれる手法の評価を行った。
論文 参考訳(メタデータ) (2021-02-16T07:03:51Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z) - Neural Architecture Search for Lightweight Non-Local Networks [66.49621237326959]
非局所ブロック(NL)は様々な視覚タスクで広く研究されている。
変換操作をスキューズし,コンパクトな特徴を取り入れた軽量ノンローカ(LightNL)ブロックを提案する。
また,LightNLブロックの最適構成をエンドツーエンドに学習するための効率的なニューラルネットワーク探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-04T15:46:39Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。