論文の概要: Revisiting Over-smoothing in BERT from the Perspective of Graph
- arxiv url: http://arxiv.org/abs/2202.08625v1
- Date: Thu, 17 Feb 2022 12:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 15:53:52.754332
- Title: Revisiting Over-smoothing in BERT from the Perspective of Graph
- Title(参考訳): グラフから見たBERTの過平滑化再考
- Authors: Han Shi, Jiahui Gao, Hang Xu, Xiaodan Liang, Zhenguo Li, Lingpeng
Kong, Stephen M.S. Lee, James T. Kwok
- Abstract要約: 近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
- 参考スコア(独自算出の注目度): 111.24636158179908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently over-smoothing phenomenon of Transformer-based models is observed in
both vision and language fields. However, no existing work has delved deeper to
further investigate the main cause of this phenomenon. In this work, we make
the attempt to analyze the over-smoothing problem from the perspective of
graph, where such problem was first discovered and explored. Intuitively, the
self-attention matrix can be seen as a normalized adjacent matrix of a
corresponding graph. Based on the above connection, we provide some theoretical
analysis and find that layer normalization plays a key role in the
over-smoothing issue of Transformer-based models. Specifically, if the standard
deviation of layer normalization is sufficiently large, the output of
Transformer stacks will converge to a specific low-rank subspace and result in
over-smoothing. To alleviate the over-smoothing problem, we consider
hierarchical fusion strategies, which combine the representations from
different layers adaptively to make the output more diverse. Extensive
experiment results on various data sets illustrate the effect of our fusion
method.
- Abstract(参考訳): 近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
しかし、この現象の主な原因をさらに調査するために、既存の研究が深く掘り下げられていない。
そこで本研究では,このような問題を最初に発見・検討したグラフの観点から,過剰スモーシング問題を解析する試みを行う。
直感的には、自己着行列は対応するグラフの正規化隣接行列と見なすことができる。
上述の接続に基づいて理論的解析を行い、トランスフォーマーモデルにおける過度な平滑化問題において、層正規化が重要な役割を果たすことを確認する。
具体的には、層正規化の標準偏差が十分大きい場合、トランスフォーマースタックの出力は特定の低ランク部分空間に収束し、オーバースムーズとなる。
オーバースムーシング問題を軽減するために,異なる層からの表現を適応的に組み合わせ,出力をより多様にする階層的融合戦略を検討する。
各種データセットにおける広範な実験結果から, 核融合法の効果を明らかにした。
関連論文リスト
- AnomalyDiffusion: Few-Shot Anomaly Image Generation with Diffusion Model [59.08735812631131]
製造業において異常検査が重要な役割を担っている。
既存の異常検査手法は、異常データが不足しているため、その性能に制限がある。
本稿では,新しい拡散型マイクロショット異常生成モデルであるAnomalyDiffusionを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:13:40Z) - Advective Diffusion Transformers for Topological Generalization in Graph
Learning [69.2894350228753]
グラフ拡散方程式は、様々なグラフトポロジーの存在下で、どのように外挿して一般化するかを示す。
本稿では,新たなグラフエンコーダのバックボーンであるAdvective Diffusion Transformer (ADiT)を提案する。
論文 参考訳(メタデータ) (2023-10-10T08:40:47Z) - Deep Graph-Level Orthogonal Hypersphere Compression for Anomaly
Detection [17.51161217561063]
本稿では,新しい深部グラフレベルの異常検出モデルを提案する。
サブストラクチャとグローバル構造特徴の間の最大相互情報でグラフ表現を学習する。
また、通常のグラフからの異常グラフの識別を強調するために、双超球圧縮を行う。
論文 参考訳(メタデータ) (2023-02-13T15:10:18Z) - A Non-Asymptotic Analysis of Oversmoothing in Graph Neural Networks [33.35609077417775]
非漸近解析により,この現象の背後にあるメカニズムを特徴づける。
混合効果がデノナイジング効果を支配し始めると,過スムージングが生じることを示す。
以上の結果から,PPRは深い層での過度なスムース化を緩和するが,PPRベースのアーキテクチャは依然として浅い深さで最高の性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2022-12-21T00:33:59Z) - DAGAD: Data Augmentation for Graph Anomaly Detection [57.92471847260541]
本稿では、属性グラフのための新しいデータ拡張ベースのグラフ異常検出(DAGAD)フレームワークを考案する。
3つのデータセットに関する一連の実験は、DAGADが様々な主に使用されるメトリクスに関して、10の最先端のベースライン検出器より優れていることを証明している。
論文 参考訳(メタデータ) (2022-10-18T11:28:21Z) - Understanding convolution on graphs via energies [23.18124653469668]
グラフネットワーク(GNN)は一般的にメッセージパッシングによって動作し、隣人から受信した情報に基づいてノードの状態が更新される。
ほとんどのメッセージパッシングモデルはグラフ畳み込みとして機能し、エッジ上に伝播する前に共有された線形変換によって特徴が混合される。
ノード分類タスクでは、グラフの畳み込みには2つの制限がある。
論文 参考訳(メタデータ) (2022-06-22T11:45:36Z) - Multilayer Graph Clustering with Optimized Node Embedding [70.1053472751897]
多層グラフクラスタリングは、グラフノードをカテゴリまたはコミュニティに分割することを目指しています。
与えられた多層グラフの層をクラスタリングに親しみやすい埋め込みを提案する。
実験の結果,本手法は著しい改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-03-30T17:36:40Z) - Multilayer Clustered Graph Learning [66.94201299553336]
我々は、観測された層を代表グラフに適切に集約するために、データ忠実度用語として対照的な損失を用いる。
実験により,本手法がクラスタクラスタw.r.tに繋がることが示された。
クラスタリング問題を解くためのクラスタリングアルゴリズムを学習する。
論文 参考訳(メタデータ) (2020-10-29T09:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。