論文の概要: Layer-wise Shared Attention Network on Dynamical System Perspective
- arxiv url: http://arxiv.org/abs/2210.16101v1
- Date: Thu, 27 Oct 2022 13:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:23:05.979407
- Title: Layer-wise Shared Attention Network on Dynamical System Perspective
- Title(参考訳): 動的システムの視点に基づく層間共有注意ネットワーク
- Authors: Zhongzhan Huang, Senwei Liang, Mingfu Liang, Weiling He, Liang Lin
- Abstract要約: 本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
- 参考スコア(独自算出の注目度): 69.45492795788167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention networks have successfully boosted accuracy in various vision
problems. Previous works lay emphasis on designing a new self-attention module
and follow the traditional paradigm that individually plugs the modules into
each layer of a network. However, such a paradigm inevitably increases the
extra parameter cost with the growth of the number of layers. From the
dynamical system perspective of the residual neural network, we find that the
feature maps from the layers of the same stage are homogenous, which inspires
us to propose a novel-and-simple framework, called the dense and implicit
attention (DIA) unit, that shares a single attention module throughout
different network layers. With our framework, the parameter cost is independent
of the number of layers and we further improve the accuracy of existing popular
self-attention modules with significant parameter reduction without any
elaborated model crafting. Extensive experiments on benchmark datasets show
that the DIA is capable of emphasizing layer-wise feature interrelation and
thus leads to significant improvement in various vision tasks, including image
classification, object detection, and medical application. Furthermore, the
effectiveness of the DIA unit is demonstrated by novel experiments where we
destabilize the model training by (1) removing the skip connection of the
residual neural network, (2) removing the batch normalization of the model, and
(3) removing all data augmentation during training. In these cases, we verify
that DIA has a strong regularization ability to stabilize the training, i.e.,
the dense and implicit connections formed by our method can effectively recover
and enhance the information communication across layers and the value of the
gradient thus alleviate the training instability.
- Abstract(参考訳): 注意ネットワークは様々な視覚問題において精度を高めることに成功した。
以前の作品は、新しい自己着脱モジュールの設計に重点を置いており、ネットワークの各レイヤに個別にモジュールを接続する従来のパラダイムに従っている。
しかし、このようなパラダイムは必然的にレイヤー数の増加とともに余分なパラメータコストを増大させる。
残差ニューラルネットワークの力学系の観点から、同一ステージの層から得られる特徴マップが均質であることに気付き、異なるネットワーク層全体にわたって単一の注意モジュールを共有する、密集的かつ暗黙的な注意(DIA)ユニットと呼ばれる、新規かつ簡易なフレームワークを提案する。
筆者らのフレームワークでは,パラメータコストはレイヤ数に依存しないため,より精巧なモデル作成を行うことなく,パラメータの大幅な削減を図りながら,既存の自己認識モジュールの精度をさらに向上する。
ベンチマークデータセットの大規模な実験により、DIAはレイヤーワイドな特徴相互関係を強調し、画像分類、オブジェクト検出、医療応用など、様々なビジョンタスクに大幅な改善をもたらすことが示されている。
さらに,(1)残留ニューラルネットワークのスキップ接続を除去し,(2)モデルのバッチ正規化を除去し,(3)トレーニング中のすべてのデータ拡張を除去することにより,モデルトレーニングを不安定化する実験により,DIAユニットの有効性が実証された。
このような場合、DIAはトレーニングを安定させる強力な正規化能力があること、すなわち、我々の手法によって形成された密で暗黙的な接続は、階層間の情報通信を効果的に回復し、グラデーションの値を高めることで、トレーニング不安定を緩和する。
関連論文リスト
- Analyzing and Improving the Training Dynamics of Diffusion Models [38.547188041252575]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Learning Compact Representations of Neural Networks using DiscriminAtive
Masking (DAM) [2.1629276606305057]
ディープラーニングにおける中心的な目標は、ニューラルネットワークのすべての層における機能のコンパクトな表現を学習することである。
離散型マスキング(DAM: DiscriminAtive Masking)と呼ばれる新しい単一ステージ型プルーニング法を提案する。
提案したDAMアプローチは,様々なアプリケーションに対して極めて優れた性能を示している。
論文 参考訳(メタデータ) (2021-10-01T23:31:46Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - Limited-angle tomographic reconstruction of dense layered objects by
dynamical machine learning [68.9515120904028]
強い散乱準透明物体の有限角トモグラフィーは困難で、非常に不適切な問題である。
このような問題の状況を改善することにより、アーティファクトの削減には、事前の定期化が必要である。
我々は,新しい分割畳み込みゲート再帰ユニット(SC-GRU)をビルディングブロックとして,リカレントニューラルネットワーク(RNN)アーキテクチャを考案した。
論文 参考訳(メタデータ) (2020-07-21T11:48:22Z) - Enabling Continual Learning with Differentiable Hebbian Plasticity [18.12749708143404]
連続学習は、獲得した知識を保護しながら、新しいタスクや知識を順次学習する問題である。
破滅的な忘れ物は、そのような学習プロセスを実行するニューラルネットワークにとって、大きな課題となる。
微分可能なヘビアン塑性からなるヘビアンコンソリデーションモデルを提案する。
論文 参考訳(メタデータ) (2020-06-30T06:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。