論文の概要: Centered Self-Attention Layers
- arxiv url: http://arxiv.org/abs/2306.01610v1
- Date: Fri, 2 Jun 2023 15:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:30:44.787644
- Title: Centered Self-Attention Layers
- Title(参考訳): 中心的自己着床層
- Authors: Ameen Ali and Tomer Galanti and Lior Wolf
- Abstract要約: 変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
- 参考スコア(独自算出の注目度): 89.21791761168032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The self-attention mechanism in transformers and the message-passing
mechanism in graph neural networks are repeatedly applied within deep learning
architectures. We show that this application inevitably leads to oversmoothing,
i.e., to similar representations at the deeper layers for different tokens in
transformers and different nodes in graph neural networks. Based on our
analysis, we present a correction term to the aggregating operator of these
mechanisms. Empirically, this simple term eliminates much of the oversmoothing
problem in visual transformers, obtaining performance in weakly supervised
segmentation that surpasses elaborate baseline methods that introduce multiple
auxiliary networks and training phrases. In graph neural networks, the
correction term enables the training of very deep architectures more
effectively than many recent solutions to the same problem.
- Abstract(参考訳): ディープラーニングアーキテクチャでは、トランスフォーマーの自己接続機構とグラフニューラルネットワークのメッセージパッシング機構が繰り返し適用される。
このアプリケーションは必然的に、トランスフォーマーの異なるトークンやグラフニューラルネットワークの異なるノードに対して、より深い層で類似した表現を過小評価することにつながる。
本解析に基づいて,これらの機構の集約演算子に対して補正項を提案する。
経験上、この単純な用語は視覚トランスフォーマーの過剰な問題の多くを取り除き、複数の補助ネットワークとトレーニングフレーズを導入する精巧なベースラインメソッドを超える弱い教師付きセグメンテーションのパフォーマンスを得る。
グラフニューラルネットワークでは、補正項は、同じ問題に対する多くの最近のソリューションよりも、非常に深いアーキテクチャのトレーニングを効果的に行うことができる。
関連論文リスト
- The Topos of Transformer Networks [0.6629765271909505]
本稿では, トポス理論のレンズを用いて, トランスフォーマーアーキテクチャの表現性に関する理論的解析を行う。
我々は、多くの一般的なニューラルネットワークアーキテクチャが、一括線形関数のプリトポに組み込むことができるが、トランスフォーマーはそのトポス完了に必然的に存在することを示す。
論文 参考訳(メタデータ) (2024-03-27T10:06:33Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Graph Metanetworks for Processing Diverse Neural Architectures [33.686728709734105]
Graph Metanetworks(GMN)は、競合するメソッドが苦労するニューラルネットワークに一般化する。
GMNは,入力ニューラルネットワーク関数を残したパラメータ置換対称性と等価であることを示す。
論文 参考訳(メタデータ) (2023-12-07T18:21:52Z) - Dynamics-aware Adversarial Attack of Adaptive Neural Networks [75.50214601278455]
適応型ニューラルネットワークの動的対向攻撃問題について検討する。
本稿では,LGM(Leaded Gradient Method)を提案する。
我々のLGMは、動的無意識攻撃法と比較して、優れた敵攻撃性能を達成している。
論文 参考訳(メタデータ) (2022-10-15T01:32:08Z) - Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-08-01T20:31:58Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - An error-propagation spiking neural network compatible with neuromorphic
processors [2.432141667343098]
本稿では,局所的な重み更新機構を用いたバックプロパゲーションを近似したスパイクに基づく学習手法を提案する。
本稿では,重み更新機構による誤り信号のバックプロパゲートを可能にするネットワークアーキテクチャを提案する。
この研究は、超低消費電力混合信号ニューロモルフィック処理系の設計に向けた第一歩である。
論文 参考訳(メタデータ) (2021-04-12T07:21:08Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Molecule Property Prediction and Classification with Graph Hypernetworks [113.38181979662288]
ネットワークをハイパーネットワークに置き換えることで性能が向上することを示す。
ハイパーネットワークの適用において大きな困難は、安定性の欠如である。
最近の研究は、エラー訂正コードのコンテキストにおいて、ハイパーネットワークのトレーニング不安定性に取り組んでいる。
論文 参考訳(メタデータ) (2020-02-01T16:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。