Fugu-MT 論文翻訳(概要): Revisiting Over-smoothing in BERT from the Perspective of Graph

論文の概要: Revisiting Over-smoothing in BERT from the Perspective of Graph

arxiv url: http://arxiv.org/abs/2202.08625v1
Date: Thu, 17 Feb 2022 12:20:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-18 15:53:52.754332
Title: Revisiting Over-smoothing in BERT from the Perspective of Graph
Title（参考訳）: グラフから見たBERTの過平滑化再考
Authors: Han Shi, Jiahui Gao, Hang Xu, Xiaodan Liang, Zhenguo Li, Lingpeng Kong, Stephen M.S. Lee, James T. Kwok
Abstract要約: 近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
参考スコア（独自算出の注目度）: 111.24636158179908
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently over-smoothing phenomenon of Transformer-based models is observed in both vision and language fields. However, no existing work has delved deeper to further investigate the main cause of this phenomenon. In this work, we make the attempt to analyze the over-smoothing problem from the perspective of graph, where such problem was first discovered and explored. Intuitively, the self-attention matrix can be seen as a normalized adjacent matrix of a corresponding graph. Based on the above connection, we provide some theoretical analysis and find that layer normalization plays a key role in the over-smoothing issue of Transformer-based models. Specifically, if the standard deviation of layer normalization is sufficiently large, the output of Transformer stacks will converge to a specific low-rank subspace and result in over-smoothing. To alleviate the over-smoothing problem, we consider hierarchical fusion strategies, which combine the representations from different layers adaptively to make the output more diverse. Extensive experiment results on various data sets illustrate the effect of our fusion method.
Abstract（参考訳）: 近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。しかし、この現象の主な原因をさらに調査するために、既存の研究が深く掘り下げられていない。そこで本研究では,このような問題を最初に発見・検討したグラフの観点から,過剰スモーシング問題を解析する試みを行う。直感的には、自己着行列は対応するグラフの正規化隣接行列と見なすことができる。上述の接続に基づいて理論的解析を行い、トランスフォーマーモデルにおける過度な平滑化問題において、層正規化が重要な役割を果たすことを確認する。具体的には、層正規化の標準偏差が十分大きい場合、トランスフォーマースタックの出力は特定の低ランク部分空間に収束し、オーバースムーズとなる。オーバースムーシング問題を軽減するために,異なる層からの表現を適応的に組み合わせ,出力をより多様にする階層的融合戦略を検討する。各種データセットにおける広範な実験結果から, 核融合法の効果を明らかにした。

関連論文リスト

A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文参考訳（メタデータ） (2025-01-30T13:04:54Z)
A Theory for Compressibility of Graph Transformers for Transductive Learning [6.298115235439078]
グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクと根本的に異なる。すべてのトレイン/テスト/バリデーションサンプルは、トレーニング中に存在しており、半教師付きタスクに似ています。我々は、これらのネットワークの隠れた次元をどのように圧縮できるかという理論的な境界を定めている。
論文参考訳（メタデータ） (2024-11-20T04:20:17Z)
Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Transformers [3.686808512438363]
本稿では,無作為マトリクスの観点から,テキスト分割のみの変圧器における信号伝搬について検討する。本研究では,注目行列の2つの最大の特異値間のテクストスペクトルギャップが,ランク崩壊の原因となることを示す。そこで本研究では,スペクトルギャップを除去することにより,広帯域におけるランク崩壊を解消する,新しい,シンプルかつ実用的な解法を提案する。
論文参考訳（メタデータ） (2024-10-10T10:34:18Z)
FANFOLD: Graph Normalizing Flows-driven Asymmetric Network for Unsupervised Graph-Level Anomaly Detection [18.758250338590297]
非教師付きグラフレベルの異常検出(UGAD)は、広く応用されているため、関心が高まりつつある。教師なしグラフレベル異常検出(FANFOLD)のためのグラフ正規化フロー駆動型非対称ネットワークを提案する。
論文参考訳（メタデータ） (2024-06-29T09:49:16Z)
Residual Connections and Normalization Can Provably Prevent Oversmoothing in GNNs [30.003409099607204]
残差接続と正規化層を有する(線形化)グラフニューラルネットワーク(GNN)の形式的かつ正確な特徴付けを提供する。正規化層の中心となるステップは、メッセージパッシングにおけるグラフ信号を変化させ、関連する情報を抽出しにくくすることを示す。本稿では,グラフNormv2と呼ばれる新しい正規化レイヤを導入し,その中心となるステップを学習することで,元のグラフ信号を望ましくない方法で歪ませないようにする。
論文参考訳（メタデータ） (2024-06-05T06:53:16Z)
What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文参考訳（メタデータ） (2024-06-04T05:30:16Z)
AnomalyDiffusion: Few-Shot Anomaly Image Generation with Diffusion Model [59.08735812631131]
製造業において異常検査が重要な役割を担っている。既存の異常検査手法は、異常データが不足しているため、その性能に制限がある。本稿では,新しい拡散型マイクロショット異常生成モデルであるAnomalyDiffusionを提案する。
論文参考訳（メタデータ） (2023-12-10T05:13:40Z)
Advective Diffusion Transformers for Topological Generalization in Graph Learning [69.2894350228753]
グラフ拡散方程式は、様々なグラフトポロジーの存在下で、どのように外挿して一般化するかを示す。本稿では,新たなグラフエンコーダのバックボーンであるAdvective Diffusion Transformer (ADiT)を提案する。
論文参考訳（メタデータ） (2023-10-10T08:40:47Z)
DAGAD: Data Augmentation for Graph Anomaly Detection [57.92471847260541]
本稿では、属性グラフのための新しいデータ拡張ベースのグラフ異常検出(DAGAD)フレームワークを考案する。 3つのデータセットに関する一連の実験は、DAGADが様々な主に使用されるメトリクスに関して、10の最先端のベースライン検出器より優れていることを証明している。
論文参考訳（メタデータ） (2022-10-18T11:28:21Z)
Multilayer Graph Clustering with Optimized Node Embedding [70.1053472751897]
多層グラフクラスタリングは、グラフノードをカテゴリまたはコミュニティに分割することを目指しています。与えられた多層グラフの層をクラスタリングに親しみやすい埋め込みを提案する。実験の結果,本手法は著しい改善をもたらすことがわかった。
論文参考訳（メタデータ） (2021-03-30T17:36:40Z)
Multilayer Clustered Graph Learning [66.94201299553336]
我々は、観測された層を代表グラフに適切に集約するために、データ忠実度用語として対照的な損失を用いる。実験により,本手法がクラスタクラスタw.r.tに繋がることが示された。クラスタリング問題を解くためのクラスタリングアルゴリズムを学習する。
論文参考訳（メタデータ） (2020-10-29T09:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。