論文の概要: SigGate-GT: Taming Over-Smoothing in Graph Transformers via Sigmoid-Gated Attention
- arxiv url: http://arxiv.org/abs/2604.17324v1
- Date: Sun, 19 Apr 2026 08:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.465715
- Title: SigGate-GT: Taming Over-Smoothing in Graph Transformers via Sigmoid-Gated Attention
- Title(参考訳): SigGate-GT:Sigmoid-Gated Attentionによるグラフ変換器のオーバースムース処理
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: 本稿では,SigGate-GTを提案する。SigGate-GTは,学習した頭ごとのSigmoidゲートをグラフGPSフレームワーク内のアテンション出力に適用するグラフトランスフォーマである。
SigGate-GTは,4~16層にわたるMADの相対的な増加率を30%削減し,注意エントロピーを高め,学習率の10倍程度のトレーニングを安定化することを示した。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph transformers achieve strong results on molecular and long-range reasoning tasks, yet remain hampered by over-smoothing (the progressive collapse of node representations with depth) and attention entropy degeneration. We observe that these pathologies share a root cause with attention sinks in large language models: softmax attention's sum-to-one constraint forces every node to attend somewhere, even when no informative signal exists. Motivated by recent findings that element-wise sigmoid gating eliminates attention sinks in large language models, we propose SigGate-GT, a graph transformer that applies learned, per-head sigmoid gates to the attention output within the GraphGPS framework. Each gate can suppress activations toward zero, enabling heads to selectively silence uninformative connections. On five standard benchmarks, SigGate-GT matches the prior best on ZINC (0.059 MAE) and sets new state-of-the-art on ogbg-molhiv (82.47% ROC-AUC), with statistically significant gains over GraphGPS across all five datasets ($p < 0.05$). Ablations show that gating reduces over-smoothing by 30% (mean relative MAD gain across 4-16 layers), increases attention entropy, and stabilizes training across a $10\times$ learning rate range, with about 1% parameter overhead on OGB.
- Abstract(参考訳): グラフトランスフォーマーは、分子的および長距離推論タスクにおいて強い結果を得るが、過度な平滑化(深さを伴うノード表現の進行的崩壊)と注意エントロピー変性によって妨げられる。
我々はこれらの病理が大きな言語モデルにおける注意シンクと根本原因を共有していることを観察する: ソフトマックスアテンションのサムツーワン制約は、情報信号が存在しない場合でも、各ノードがどこかに出席することを強制する。
そこで我々は,SigGate-GTを提案する。SigGate-GTはSigGate-GTというグラフトランスフォーマで,SigGate-GTは学習された頭ごとのSigmoidゲートをグラフGPSフレームワーク内のアテンション出力に適用する。
各ゲートはゼロへのアクティベーションを抑えることができ、ヘッドは不定形接続を選択的に黙らせることができる。
5つの標準ベンチマークでは、SigGate-GTはZINC (0.059 MAE) で前回最高値と一致し、ogbg-molhiv (82.47% ROC-AUC) に新しい最先端値を設定する。
アブレーションによると、ゲーティングは過剰なスムース化を30%削減し(平均4-16層にわたるMADゲイン)、注意エントロピーを高め、学習速度の範囲を10\times$で安定化し、OGB上で約1%のパラメータオーバヘッドを持つ。
関連論文リスト
- k-Maximum Inner Product Attention for Graph Transformers and the Expressive Power of GraphGPS [12.688538382869659]
グラフ変換器のk-MIPアテンションを導入し、トップk操作によりクエリ毎に最も関連性の高いキーノードを選択する。
これにより、線形メモリの複雑さと、すべての注意に比較して最大1桁の実用的なスピードアップが達成される。
我々はk-MIP変換器が任意の精度で全アテンション変換器を近似できることを証明した。
論文 参考訳(メタデータ) (2026-04-04T17:45:50Z) - ParaFormer: A Generalized PageRank Graph Transformer for Graph Representation Learning [40.07492322386042]
グラフ変換器(GT)は有望なグラフ学習ツールとして登場し、全ペア接続されたプロパティを活用して、グローバル情報を効果的にキャプチャする。
ディープGNNにおける過密問題に対処するため、当初はグローバルな注目を集め、ディープGNNの使用の必要性を排除した。
そこで我々はPageRank Transformer (ParaFormer)を提案する。
論文 参考訳(メタデータ) (2025-12-16T17:30:01Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。
提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。
提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文 参考訳(メタデータ) (2023-06-19T08:03:25Z) - Graph Attention Multi-Layer Perceptron [17.669550943457768]
新たなGNNアーキテクチャ - Graph Attention Multi-Layer Perceptron (GAMLP)を提案する。
GAMLPは、グラフ知識のスケールの異なる関係をキャプチャする。
当社の大規模Tencent Videoデータセットの予測精度に関して、GATを1.3%上回っている。
論文 参考訳(メタデータ) (2022-06-09T08:56:11Z) - SCGC : Self-Supervised Contrastive Graph Clustering [1.1470070927586016]
グラフクラスタリングはネットワーク内のグループやコミュニティを検出する。
オートエンコーダのような深層学習手法は、豊富な構造情報を組み込むことはできない。
自己監督型コントラストグラフクラスタリング(SCGC)を提案する。
論文 参考訳(メタデータ) (2022-04-27T01:38:46Z) - Node Feature Extraction by Self-Supervised Multi-scale Neighborhood
Prediction [123.20238648121445]
我々は、新しい自己教師型学習フレームワーク、グラフ情報支援ノード機能exTraction (GIANT)を提案する。
GIANT は eXtreme Multi-label Classification (XMC) 形式を利用しており、これはグラフ情報に基づいた言語モデルの微調整に不可欠である。
我々は,Open Graph Benchmarkデータセット上での標準GNNパイプラインよりもGIANTの方が優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-29T19:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。