論文の概要: Layer-wise Shared Attention Network on Dynamical System Perspective
- arxiv url: http://arxiv.org/abs/2210.16101v1
- Date: Thu, 27 Oct 2022 13:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:23:05.979407
- Title: Layer-wise Shared Attention Network on Dynamical System Perspective
- Title(参考訳): 動的システムの視点に基づく層間共有注意ネットワーク
- Authors: Zhongzhan Huang, Senwei Liang, Mingfu Liang, Weiling He, Liang Lin
- Abstract要約: 本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
- 参考スコア(独自算出の注目度): 69.45492795788167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention networks have successfully boosted accuracy in various vision
problems. Previous works lay emphasis on designing a new self-attention module
and follow the traditional paradigm that individually plugs the modules into
each layer of a network. However, such a paradigm inevitably increases the
extra parameter cost with the growth of the number of layers. From the
dynamical system perspective of the residual neural network, we find that the
feature maps from the layers of the same stage are homogenous, which inspires
us to propose a novel-and-simple framework, called the dense and implicit
attention (DIA) unit, that shares a single attention module throughout
different network layers. With our framework, the parameter cost is independent
of the number of layers and we further improve the accuracy of existing popular
self-attention modules with significant parameter reduction without any
elaborated model crafting. Extensive experiments on benchmark datasets show
that the DIA is capable of emphasizing layer-wise feature interrelation and
thus leads to significant improvement in various vision tasks, including image
classification, object detection, and medical application. Furthermore, the
effectiveness of the DIA unit is demonstrated by novel experiments where we
destabilize the model training by (1) removing the skip connection of the
residual neural network, (2) removing the batch normalization of the model, and
(3) removing all data augmentation during training. In these cases, we verify
that DIA has a strong regularization ability to stabilize the training, i.e.,
the dense and implicit connections formed by our method can effectively recover
and enhance the information communication across layers and the value of the
gradient thus alleviate the training instability.
- Abstract(参考訳): 注意ネットワークは様々な視覚問題において精度を高めることに成功した。
以前の作品は、新しい自己着脱モジュールの設計に重点を置いており、ネットワークの各レイヤに個別にモジュールを接続する従来のパラダイムに従っている。
しかし、このようなパラダイムは必然的にレイヤー数の増加とともに余分なパラメータコストを増大させる。
残差ニューラルネットワークの力学系の観点から、同一ステージの層から得られる特徴マップが均質であることに気付き、異なるネットワーク層全体にわたって単一の注意モジュールを共有する、密集的かつ暗黙的な注意(DIA)ユニットと呼ばれる、新規かつ簡易なフレームワークを提案する。
筆者らのフレームワークでは,パラメータコストはレイヤ数に依存しないため,より精巧なモデル作成を行うことなく,パラメータの大幅な削減を図りながら,既存の自己認識モジュールの精度をさらに向上する。
ベンチマークデータセットの大規模な実験により、DIAはレイヤーワイドな特徴相互関係を強調し、画像分類、オブジェクト検出、医療応用など、様々なビジョンタスクに大幅な改善をもたらすことが示されている。
さらに,(1)残留ニューラルネットワークのスキップ接続を除去し,(2)モデルのバッチ正規化を除去し,(3)トレーニング中のすべてのデータ拡張を除去することにより,モデルトレーニングを不安定化する実験により,DIAユニットの有効性が実証された。
このような場合、DIAはトレーニングを安定させる強力な正規化能力があること、すなわち、我々の手法によって形成された密で暗黙的な接続は、階層間の情報通信を効果的に回復し、グラデーションの値を高めることで、トレーニング不安定を緩和する。
関連論文リスト
- CCDepth: A Lightweight Self-supervised Depth Estimation Network with Enhanced Interpretability [11.076431337488973]
本研究では,畳み込みニューラルネットワーク(CNN)とホワイトボックスCRATEネットワークを組み合わせた,ハイブリッド型自己教師型深度推定ネットワークCCDepthを提案する。
このネットワークは,CNNとCRATEモジュールを用いて画像中の局所的およびグローバルな情報を抽出し,学習効率の向上とモデルサイズ削減を実現する。
論文 参考訳(メタデータ) (2024-09-30T04:19:40Z) - Efficient and Accurate Hyperspectral Image Demosaicing with Neural Network Architectures [3.386560551295746]
本研究では,ハイパースペクトル画像復調におけるニューラルネットワークアーキテクチャの有効性について検討した。
様々なネットワークモデルと修正を導入し、それらを従来の手法や既存の参照ネットワークアプローチと比較する。
その結果、我々のネットワークは、例外的な性能を示す両方のデータセットにおいて、参照モデルよりも優れるか、一致していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T08:02:49Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - ADASR: An Adversarial Auto-Augmentation Framework for Hyperspectral and
Multispectral Data Fusion [54.668445421149364]
HSI(Deep Learning-based Hyperspectral Image)は、HSI(Hyperspectral Image)とMSI(Multispectral Image)を深層ニューラルネットワーク(DNN)に融合させることにより、高空間分解能HSI(HR-HSI)を生成することを目的としている。
本稿では, HSI-MSI 融合のためのデータ多様性を向上するために, HSI-MSI サンプルペアの自動最適化と拡張を行う新しい逆自動データ拡張フレームワーク ADASR を提案する。
論文 参考訳(メタデータ) (2023-10-11T07:30:37Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Ensembles of Spiking Neural Networks [0.3007949058551534]
本稿では,最先端の結果を生み出すスパイクニューラルネットワークのアンサンブルを構築する方法について述べる。
MNIST, NMNIST, DVS Gestureデータセットの分類精度は98.71%, 100.0%, 99.09%である。
我々は、スパイキングニューラルネットワークをGLM予測器として形式化し、ターゲットドメインに適した表現を識別する。
論文 参考訳(メタデータ) (2020-10-15T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。