論文の概要: Revisiting Over-smoothing in BERT from the Perspective of Graph
- arxiv url: http://arxiv.org/abs/2202.08625v1
- Date: Thu, 17 Feb 2022 12:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 15:53:52.754332
- Title: Revisiting Over-smoothing in BERT from the Perspective of Graph
- Title(参考訳): グラフから見たBERTの過平滑化再考
- Authors: Han Shi, Jiahui Gao, Hang Xu, Xiaodan Liang, Zhenguo Li, Lingpeng
Kong, Stephen M.S. Lee, James T. Kwok
- Abstract要約: 近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
- 参考スコア(独自算出の注目度): 111.24636158179908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently over-smoothing phenomenon of Transformer-based models is observed in
both vision and language fields. However, no existing work has delved deeper to
further investigate the main cause of this phenomenon. In this work, we make
the attempt to analyze the over-smoothing problem from the perspective of
graph, where such problem was first discovered and explored. Intuitively, the
self-attention matrix can be seen as a normalized adjacent matrix of a
corresponding graph. Based on the above connection, we provide some theoretical
analysis and find that layer normalization plays a key role in the
over-smoothing issue of Transformer-based models. Specifically, if the standard
deviation of layer normalization is sufficiently large, the output of
Transformer stacks will converge to a specific low-rank subspace and result in
over-smoothing. To alleviate the over-smoothing problem, we consider
hierarchical fusion strategies, which combine the representations from
different layers adaptively to make the output more diverse. Extensive
experiment results on various data sets illustrate the effect of our fusion
method.
- Abstract(参考訳): 近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
しかし、この現象の主な原因をさらに調査するために、既存の研究が深く掘り下げられていない。
そこで本研究では,このような問題を最初に発見・検討したグラフの観点から,過剰スモーシング問題を解析する試みを行う。
直感的には、自己着行列は対応するグラフの正規化隣接行列と見なすことができる。
上述の接続に基づいて理論的解析を行い、トランスフォーマーモデルにおける過度な平滑化問題において、層正規化が重要な役割を果たすことを確認する。
具体的には、層正規化の標準偏差が十分大きい場合、トランスフォーマースタックの出力は特定の低ランク部分空間に収束し、オーバースムーズとなる。
オーバースムーシング問題を軽減するために,異なる層からの表現を適応的に組み合わせ,出力をより多様にする階層的融合戦略を検討する。
各種データセットにおける広範な実験結果から, 核融合法の効果を明らかにした。
関連論文リスト
- FANFOLD: Graph Normalizing Flows-driven Asymmetric Network for Unsupervised Graph-Level Anomaly Detection [18.758250338590297]
非教師付きグラフレベルの異常検出(UGAD)は、広く応用されているため、関心が高まりつつある。
教師なしグラフレベル異常検出(FANFOLD)のためのグラフ正規化フロー駆動型非対称ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-29T09:49:16Z) - Residual Connections and Normalization Can Provably Prevent Oversmoothing in GNNs [30.003409099607204]
残差接続と正規化層を有する(線形化)グラフニューラルネットワーク(GNN)の形式的かつ正確な特徴付けを提供する。
正規化層の中心となるステップは、メッセージパッシングにおけるグラフ信号を変化させ、関連する情報を抽出しにくくすることを示す。
本稿では,グラフNormv2と呼ばれる新しい正規化レイヤを導入し,その中心となるステップを学習することで,元のグラフ信号を望ましくない方法で歪ませないようにする。
論文 参考訳(メタデータ) (2024-06-05T06:53:16Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - AnomalyDiffusion: Few-Shot Anomaly Image Generation with Diffusion Model [59.08735812631131]
製造業において異常検査が重要な役割を担っている。
既存の異常検査手法は、異常データが不足しているため、その性能に制限がある。
本稿では,新しい拡散型マイクロショット異常生成モデルであるAnomalyDiffusionを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:13:40Z) - Advective Diffusion Transformers for Topological Generalization in Graph
Learning [69.2894350228753]
グラフ拡散方程式は、様々なグラフトポロジーの存在下で、どのように外挿して一般化するかを示す。
本稿では,新たなグラフエンコーダのバックボーンであるAdvective Diffusion Transformer (ADiT)を提案する。
論文 参考訳(メタデータ) (2023-10-10T08:40:47Z) - A Non-Asymptotic Analysis of Oversmoothing in Graph Neural Networks [33.35609077417775]
非漸近解析により,この現象の背後にあるメカニズムを特徴づける。
混合効果がデノナイジング効果を支配し始めると,過スムージングが生じることを示す。
以上の結果から,PPRは深い層での過度なスムース化を緩和するが,PPRベースのアーキテクチャは依然として浅い深さで最高の性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2022-12-21T00:33:59Z) - DAGAD: Data Augmentation for Graph Anomaly Detection [57.92471847260541]
本稿では、属性グラフのための新しいデータ拡張ベースのグラフ異常検出(DAGAD)フレームワークを考案する。
3つのデータセットに関する一連の実験は、DAGADが様々な主に使用されるメトリクスに関して、10の最先端のベースライン検出器より優れていることを証明している。
論文 参考訳(メタデータ) (2022-10-18T11:28:21Z) - Multilayer Clustered Graph Learning [66.94201299553336]
我々は、観測された層を代表グラフに適切に集約するために、データ忠実度用語として対照的な損失を用いる。
実験により,本手法がクラスタクラスタw.r.tに繋がることが示された。
クラスタリング問題を解くためのクラスタリングアルゴリズムを学習する。
論文 参考訳(メタデータ) (2020-10-29T09:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。