論文の概要: Aligning Transformers with Weisfeiler-Leman
- arxiv url: http://arxiv.org/abs/2406.03148v1
- Date: Wed, 5 Jun 2024 11:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:50:02.215938
- Title: Aligning Transformers with Weisfeiler-Leman
- Title(参考訳): Weisfeiler-Leman を用いたアライディングトランス
- Authors: Luis Müller, Christopher Morris,
- Abstract要約: グラフニューラルネットワークアーキテクチャは、理論的によく理解された表現力を提供する$k$-WL階層と一致している。
我々は,ラプラシアンPEやSPEなどの確立した位置符号化の研究を可能にする理論的枠組みを開発する。
我々は,大規模PCQM4Mv2データセットを用いてトランスフォーマーの評価を行い,最先端のPCQM4Mv2と競合する予測性能を示した。
- 参考スコア(独自算出の注目度): 5.0452971570315235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph neural network architectures aligned with the $k$-dimensional Weisfeiler--Leman ($k$-WL) hierarchy offer theoretically well-understood expressive power. However, these architectures often fail to deliver state-of-the-art predictive performance on real-world graphs, limiting their practical utility. While recent works aligning graph transformer architectures with the $k$-WL hierarchy have shown promising empirical results, employing transformers for higher orders of $k$ remains challenging due to a prohibitive runtime and memory complexity of self-attention as well as impractical architectural assumptions, such as an infeasible number of attention heads. Here, we advance the alignment of transformers with the $k$-WL hierarchy, showing stronger expressivity results for each $k$, making them more feasible in practice. In addition, we develop a theoretical framework that allows the study of established positional encodings such as Laplacian PEs and SPE. We evaluate our transformers on the large-scale PCQM4Mv2 dataset, showing competitive predictive performance with the state-of-the-art and demonstrating strong downstream performance when fine-tuning them on small-scale molecular datasets. Our code is available at https://github.com/luis-mueller/wl-transformers.
- Abstract(参考訳): グラフニューラルネットワークアーキテクチャは、$k$-dimensional Weisfeiler--Leman(k$-WL)階層と一致し、理論的によく理解された表現力を提供する。
しかし、これらのアーキテクチャは実世界のグラフに最先端の予測性能を提供できず、実用性は制限される。
グラフトランスフォーマーアーキテクチャを$k$-WL階層に整合させる最近の研究は、有望な実証的な結果を示しているが、より高次の$k$のトランスフォーマーを使うことは、禁止されたランタイムと自己注意のメモリ複雑さと、実現不可能な数のアテンションヘッドのような非現実的なアーキテクチャ仮定のため、依然として困難である。
ここでは、変換器と$k$-WL階層のアライメントを進め、各$k$に対してより強い表現性結果を示し、実際により実現可能であることを示す。
さらに,Laplacian PEsやSPEなどの定位符号化の研究を可能にする理論フレームワークを開発した。
我々は、大規模PCQM4Mv2データセット上でトランスフォーマーを評価し、最先端技術と競合する予測性能を示し、小規模分子データセット上でそれらを微調整する場合に強力な下流性能を示す。
私たちのコードはhttps://github.com/luis-mueller/wl-transformers.comで利用可能です。
関連論文リスト
- Circuit Complexity Bounds for RoPE-based Transformer Architecture [25.2590541420499]
実証的な証拠は、$mathsfRoPE$ベースのTransformerアーキテクチャがより高度な一般化能力を示していることを示唆している。
例えば$mathsfTC0 = mathsfNC1$, $mathsfRoPE$-based Transformer with $mathrmpoly(n)$-precision, $O(1)$ Layer, hidden dimension $d leq O(n)$は算術問題を解くことができないことを示す。
論文 参考訳(メタデータ) (2024-11-12T07:24:41Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Automatic Graph Topology-Aware Transformer [50.2807041149784]
マイクロレベルおよびマクロレベルの設計による包括的グラフトランスフォーマー検索空間を構築した。
EGTASはマクロレベルでのグラフトランスフォーマートポロジとマイクロレベルでのグラフ認識戦略を進化させる。
グラフレベルおよびノードレベルのタスクに対して,EGTASの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T07:44:31Z) - On the Theoretical Expressive Power and the Design Space of Higher-Order Graph Transformers [20.73012427295352]
次数-k$グラフ変圧器とスパース変圧器の理論表現力について検討する。
自然近傍に基づくスパースオーダー-$k$変換モデルは,計算効率だけでなく,表現性も高いことを示す。
論文 参考訳(メタデータ) (2024-04-04T11:26:51Z) - Towards Principled Graph Transformers [8.897857788525629]
k次元Weisfeiler-Leman(k-WL)階層に基づくグラフ学習アーキテクチャは、理論的によく理解された表現力を提供する。
提案するEdge Transformerは,ノードではなくノードペアで動作するグローバルアテンションモデルであり,少なくとも3WLの表現力を持つことを示す。
論文 参考訳(メタデータ) (2024-01-18T16:50:55Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。