論文の概要: Lipschitz Normalization for Self-Attention Layers with Application to
Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2103.04886v1
- Date: Mon, 8 Mar 2021 16:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:56:12.831119
- Title: Lipschitz Normalization for Self-Attention Layers with Application to
Graph Neural Networks
- Title(参考訳): グラフニューラルネットワークを用いた自己注意層に対するリプシッツ正規化
- Authors: George Dasoulas, Kevin Scaman, Aladin Virmaux
- Abstract要約: 注意スコアの正規化によるリプシッツ連続性の強化は,深い注意モデルの性能を著しく向上させる。
LipschitzNormを用いた深いGATモデルがノードラベル予測タスクの最先端の結果を達成することを示した。
- 参考スコア(独自算出の注目度): 18.522520595551985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention based neural networks are state of the art in a large range of
applications. However, their performance tends to degrade when the number of
layers increases. In this work, we show that enforcing Lipschitz continuity by
normalizing the attention scores can significantly improve the performance of
deep attention models. First, we show that, for deep graph attention networks
(GAT), gradient explosion appears during training, leading to poor performance
of gradient-based training algorithms. To address this issue, we derive a
theoretical analysis of the Lipschitz continuity of attention modules and
introduce LipschitzNorm, a simple and parameter-free normalization for
self-attention mechanisms that enforces the model to be Lipschitz continuous.
We then apply LipschitzNorm to GAT and Graph Transformers and show that their
performance is substantially improved in the deep setting (10 to 30 layers).
More specifically, we show that a deep GAT model with LipschitzNorm achieves
state of the art results for node label prediction tasks that exhibit
long-range dependencies, while showing consistent improvements over their
unnormalized counterparts in benchmark node classification tasks.
- Abstract(参考訳): 注意に基づくニューラルネットワークは、幅広いアプリケーションにおける最先端技術である。
しかし、レイヤーの数が増えるとパフォーマンスは低下する傾向にある。
本研究では,注意スコアの正規化によるリプシッツ連続性の強化により,深い注意モデルの性能が著しく向上することを示す。
まず、深いグラフ注意ネットワーク(GAT)では、トレーニング中にグラデーション爆発が現れ、グラデーションベースのトレーニングアルゴリズムのパフォーマンスが低下することを示します。
この問題に対処するために、注意モジュールのリプシッツ連続性の理論的解析を導き、リプシッツ連続となるようにモデルを強制する自己注意機構の単純かつパラメータフリーな正規化であるリプシッツノルムを導入する。
次に、GATおよびグラフトランスフォーマーにLipschitzNormを適用し、そのパフォーマンスが10から30層で大幅に改善されていることを示す。
より具体的には、LipschitzNormを用いた深部GATモデルにより、長期依存性を示すノードラベル予測タスクの成果が得られ、ベンチマークノード分類タスクにおける非正規化タスクよりも一貫した改善が示される。
関連論文リスト
- Certified Robustness via Dynamic Margin Maximization and Improved
Lipschitz Regularization [43.98504250013897]
我々は、弱い方向に沿ってモデルのリプシッツ定数を規則化しながら、出力(ロジット)空間のマージンを増大させる頑健なトレーニングアルゴリズムを開発する。
境界の相対的精度は過剰な正規化を防ぎ、決定境界をより直接的に操作することができる。
MNIST, CIFAR-10 および Tiny-ImageNet データセットを用いた実験により,提案アルゴリズムが最先端技術と比較して競争力に向上した結果が得られることを確認した。
論文 参考訳(メタデータ) (2023-09-29T20:07:02Z) - DP-SGD Without Clipping: The Lipschitz Neural Network Way [5.922390405022253]
ディファレンシャル・プライベート(DP)ディープ・ニューラル・ニューラルネットワーク(DNN)の訓練
パラメータに関して各レイヤのリプシッツ定数をバウンドすることで、これらのネットワークをプライバシ保証でトレーニングできることを証明します。
我々の分析では、上記の感性度を大規模に計算できるだけでなく、固定されたプライバシー保証のための勾配-雑音比を最大化するためのガイダンスも提供しています。
論文 参考訳(メタデータ) (2023-05-25T16:05:46Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Lipschitz Continuity Retained Binary Neural Network [52.17734681659175]
我々は,BNNのモデルロバスト性を定義するための厳密な基準として,リプシッツ連続性を導入する。
次に、モデルロバスト性を改善するための正規化項としてリプシッツ連続性を維持することを提案する。
実験により,我々のBNN固有の正規化手法は,BNNの堅牢性を効果的に強化できることが証明された。
論文 参考訳(メタデータ) (2022-07-13T22:55:04Z) - Chordal Sparsity for Lipschitz Constant Estimation of Deep Neural
Networks [77.82638674792292]
ニューラルネットワークのリプシッツ定数は、画像分類の堅牢性、コントローラ設計の安全性、トレーニングデータを超えた一般化性を保証する。
リプシッツ定数の計算はNPハードであるため、リプシッツ定数を推定する手法はスケーラビリティと精度のトレードオフをナビゲートする必要がある。
本研究では,LipSDPと呼ばれる半定値プログラミング手法のスケーラビリティフロンティアを大幅に推し進め,精度の損失をゼロにする。
論文 参考訳(メタデータ) (2022-04-02T11:57:52Z) - GraN-GAN: Piecewise Gradient Normalization for Generative Adversarial
Networks [2.3666095711348363]
GAN(Agenerative Adversarial Network)は、主に識別器(または批評家)における一方向線形活性化関数を使用する。
入力空間におけるK-Lipschitz制約を一括的に保証する新しい入力依存正規化法であるグラディエント正規化(GraN)を提案する。
GraNは個々のネットワーク層での処理を制限せず、勾配のペナルティとは異なり、ほぼ至る所でピースワイズ・リプシッツの制約を厳格に強制する。
論文 参考訳(メタデータ) (2021-11-04T21:13:02Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z) - The Lipschitz Constant of Self-Attention [27.61634862685452]
ニューラルネットワークのリプシッツ定数は、ディープラーニングにおいて様々な文脈で研究されている。
配列モデリングに広く用いられている非線形ニューラルネットワークモジュールである自己アテンションのリプシッツ定数について検討する。
論文 参考訳(メタデータ) (2020-06-08T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。