論文の概要、ライセンス

# (参考訳) トランスフォーマーはグラフ表現で本当に悪いのか? [全文訳有]

Do Transformers Really Perform Bad for Graph Representation? ( http://arxiv.org/abs/2106.05234v1 )

ライセンス: CC BY 4.0
Chengxuan Ying, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen and Tie-Yan Liu(参考訳) トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョンなど、多くの領域で支配的な選択となっている。 しかし、グラフレベルの予測で人気のあるリーダーボードでは、主流のgnnに比べて競争力は得られていない。 したがって、トランスフォーマーがグラフ表現学習のためにどのように機能するかは謎のままである。 本稿では,標準トランスフォーマーアーキテクチャ上に構築されたgraphormerを提示することで,この謎を解決し,特に最近のogb大規模課題において,幅広いグラフ表現学習タスクにおいて優れた結果が得られることを示す。 グラフでトランスフォーマーを利用するための重要な洞察は、グラフの構造情報をモデルに効果的にエンコードする必要性である。 そこで本稿では,グラフ構造化データのモデル化を支援するため,単純な構造符号化手法を提案する。 さらに,グラフマーの表現力を数学的に特徴付け,グラフの構造情報を符号化する方法によって,多くのGNN変種がグラフマーの特別な事例としてカバーできることを示す。

The Transformer architecture has become a dominant choice in many domains, such as natural language processing and computer vision. Yet, it has not achieved competitive performance on popular leaderboards of graph-level prediction compared to mainstream GNN variants. Therefore, it remains a mystery how Transformers could perform well for graph representation learning. In this paper, we solve this mystery by presenting Graphormer, which is built upon the standard Transformer architecture, and could attain excellent results on a broad range of graph representation learning tasks, especially on the recent OGB Large-Scale Challenge. Our key insight to utilizing Transformer in the graph is the necessity of effectively encoding the structural information of a graph into the model. To this end, we propose several simple yet effective structural encoding methods to help Graphormer better model graph-structured data. Besides, we mathematically characterize the expressive power of Graphormer and exhibit that with our ways of encoding the structural information of graphs, many popular GNN variants could be covered as the special cases of Graphormer.
公開日: Wed, 9 Jun 2021 17:18:52 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] G L . 9 ] G L。 0.81
s c [ 1 v 4 3 2 5 0 sc [ 1 v 4 3 2 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Do Transformers Really Perform Bad トランスフォーマーは本当に良くない 0.59
for Graph Representation? グラフ表現のために? 0.72
Chengxuan Ying1∗, Tianle Cai2, Shengjie Luo3∗, Chengxuan Ying1∗, Tianle Cai2, Shengjie Luo3∗, 0.90
Shuxin Zheng4†, Guolin Ke4, Di He4†, Yanming Shen1, Tie-Yan Liu4 Shuxin Zheng4', Guolin Ke4, Di He4', Yanming Shen1, Tie-Yan Liu4 0.71
1Dalian University of Technology 2Princeton University 1ダリアン工科大学 2プリンストン大学 0.74
yingchengsyuan@gmail .com, tianle.cai@princeton .edu, luosj@stu.pku.edu.cn yingchengsyuan@gmail .com, tianle.cai@princeton .edu, luosj@stu.pku.edu.cn 0.59
{shuz†, guoke, dihe†, tyliu}@microsoft.com, shen@dlut.edu.cn microsoft.com, shen@dlut.edu.cn 0.44
3Peking University 4Microsoft Research Asia 3北京大学 4Microsoft Research Asia 0.80
Abstract The Transformer architecture has become a dominant choice in many domains, such as natural language processing and computer vision. 概要 トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョンなど、多くの領域で支配的な選択となっている。 0.58
Yet, it has not achieved competitive performance on popular leaderboards of graph-level prediction compared to mainstream GNN variants. しかし、グラフレベルの予測で人気のあるリーダーボードでは、主流のgnnに比べて競争力は得られていない。 0.53
Therefore, it remains a mystery how Transformers could perform well for graph representation learning. したがって、トランスフォーマーがグラフ表現学習のためにどのように機能するかは謎のままである。 0.57
In this paper, we solve this mystery by presenting Graphormer, which is built upon the standard Transformer architecture, and could attain excellent results on a broad range of graph representation learning tasks, especially on the recent OGB Large-Scale Challenge. 本稿では,標準トランスフォーマーアーキテクチャ上に構築されたgraphormerを提示することで,この謎を解決し,特に最近のogb大規模課題において,幅広いグラフ表現学習タスクにおいて優れた結果が得られることを示す。 0.80
Our key insight to utilizing Transformer in the graph is the necessity of effectively encoding the structural information of a graph into the model. グラフでトランスフォーマーを利用するための重要な洞察は、グラフの構造情報をモデルに効果的にエンコードする必要性である。 0.84
To this end, we propose several simple yet effective structural encoding methods to help Graphormer better model graph-structured data. そこで本稿では,グラフ構造化データのモデル化を支援するため,単純な構造符号化手法を提案する。 0.74
Besides, we mathematically characterize the expressive power of Graphormer and exhibit that with our ways of encoding the structural information of graphs, many popular GNN variants could be covered as the special cases of Graphormer. さらに,グラフマーの表現力を数学的に特徴付け,グラフの構造情報を符号化する方法によって,多くのGNN変種がグラフマーの特別な事例としてカバーできることを示す。 0.79
The code and models of Graphormer will be made publicly available at https://github.com/M icrosoft/Graphormer. Graphormerのコードとモデルはhttps://github.com/M icrosoft/Graphormerで公開されている。 0.72
1 Introduction The Transformer [46] is well acknowledged as the most powerful neural network in modelling sequential data, such as natural language [11, 34, 6] and speech [17]. 1 はじめに Transformer [46] は、自然言語[11, 34, 6] や音声[17] などの逐次データモデリングにおいて、最も強力なニューラルネットワークとして認識されている。 0.73
Model variants built upon Transformer have also been shown great performance in computer vision [12, 35] and programming language [41]. Transformer上に構築されたモデル変種は、コンピュータビジョン[12, 35]とプログラミング言語[41]でも優れた性能を示している。 0.77
However, to the best of our knowledge, Transformer has still not been the de-facto standard on public graph representation leaderboards [21, 14, 20]. しかし、私たちの知る限りでは、Transformerは公開グラフ表現リーダーボード[21, 14, 20]のデファクトスタンダードにはなっていない。 0.76
There are many attempts of leveraging Transformer into the graph domain, but the only effective way is replacing some key modules (e g , feature aggregation) in classic GNN variants by the softmax attention [47, 7, 22, 48, 56, 43, 13]. Transformerをグラフ領域に活用する試みは数多くあるが、唯一の効果的な方法は、古典的なGNN変種におけるキーモジュール(例えば、特徴集約)をソフトマックスの注意[47, 7, 22, 48, 56, 43, 13]で置き換えることである。 0.85
Therefore, it is still an open question whether Transformer architecture is suitable to model graphs and how to make it work in graph representation learning. したがって、Transformerアーキテクチャがグラフのモデル化に適したのか、グラフ表現学習でどのように機能するのかは、まだ明らかな疑問である。 0.69
In this paper, we give an affirmative answer by developing Graphormer, which is directly built upon the standard Transformer, and achieves state-of-the-art performance on a wide range of graphlevel prediction tasks, including the very recent Open Graph Benchmark Large-Scale Challenge (OGB-LSC) [20], and several popular leaderboards (e g , OGB [21], Benchmarking-GNN [14]). 本稿では,標準トランスフォーマーを直接構築したGraphormerを開発した上で,最新のOpen Graph Benchmark Large-Scale Challenge (OGB-LSC) [20] や,いくつかの人気リーダボード (例えば,OGB [21], Benchmarking-GNN [14]) など,幅広いグラフレベルの予測タスクにおいて,最先端のパフォーマンスを実現する。 0.86
The Transformer is originally designed for sequence modeling. Transformerはもともとシーケンスモデリング用に設計された。 0.76
To utilize its power in graphs, we believe グラフにその力を利用するには 0.62
∗Interns at MSRA. ∗Interns at MSRA 0.71
†Corresponding Authors. Preprint. 共著者。 プレプリント。 0.56
Under review. レビュー中。 0.58
英語(論文から抽出)日本語訳スコア
the key is to properly incorporate structural information of graphs into the model. 鍵となるのは グラフの構造情報を 適切にモデルに組み込むことです 0.88
Note that for each node i, the self-attention only calculates the semantic similarity between i and other nodes, without considering the structural information of a graph reflected on the nodes and the relation between node pairs. 各ノード i に対して、自己注意は i と他のノード間の意味的類似性のみを計算し、ノードに反映されるグラフの構造情報とノード対の関係を考慮しない。 0.86
Graphormer incorporates several effective structural encoding methods to leverage such information, which are described below. graphormerは、以下の情報を活用するために、いくつかの効果的な構造的符号化手法を組み込んでいる。 0.46
First, we propose a Centrality Encoding in Graphormer to capture the node importance in the graph. まず、グラフにおけるノードの重要性を捉えるために、GraphormerのCentrality Encodingを提案する。 0.81
In a graph, different nodes may have different importance, e g , celebrities are considered to be more influential than the majority of web users in a social network. グラフでは、異なるノードは異なる重要性を持つ可能性がある。例えば、セレブはソーシャルネットワークのウェブユーザーの大多数よりも影響力があると考えられている。 0.75
However, such information isn’t reflected in the self-attention module as it calculates the similarities mainly using the node semantic features. しかし、このような情報は、主にノードの意味的特徴を用いて類似性を計算するため、セルフアテンションモジュールには反映されない。
訳抜け防止モード: しかし、そのような情報はself- attention モジュールに反映されない。 ノードのセマンティックな特徴を使い 類似性を計算します
0.78
To address the problem, we propose to encode the node centrality in Graphormer. この問題に対処するため,我々はgraphormerのノード中心性をエンコードする。 0.74
In particular, we leverage the degree centrality for the centrality encoding, where a learnable vector is assigned to each node according to its degree and added to the node features in the input layer. 特に、学習可能なベクトルがその度合いに応じて各ノードに割り当てられ、入力層内のノード特徴に付加される中心性符号化の次数中心性を利用する。 0.67
Empirical studies show that simple centrality encoding is effective for Transformer in modeling the graph data. 経験的研究により、単純な中心性エンコーディングはグラフデータのモデリングにおいてトランスフォーマーに有効であることが示されている。
訳抜け防止モード: 実証研究は 単純な中央符号化は、グラフデータのモデリングにおいてTransformerに有効である。
0.71
Second, we propose a novel Spatial Encoding in Graphormer to capture the structural relation between nodes. 次に,ノード間の構造関係を捉えるために,graphormerにおける新しい空間符号化を提案する。 0.65
One notable geometrical property that distinguishes graph-structured data from other structured data, e g , language, images, is that there does not exist a canonical grid to embed the graph. グラフ構造化データと他の構造化データ、例えば言語、画像とを区別する注目すべき幾何学的特性は、グラフを埋め込む正準格子が存在しないことである。 0.82
In fact, nodes can only lie in a non-Euclidean space and are linked by edges. 実際、ノードは非ユークリッド空間にのみ存在し、辺によってリンクされる。 0.68
To model such structural information, for each node pair, we assign a learnable embedding based on their spatial relation. このような構造情報をモデル化するために,各ノード対に対して,その空間的関係に基づいて学習可能な埋め込みを割り当てる。 0.71
Multiple measurements in the literature could be leveraged for modeling spatial relations. 文献における複数の測定は空間関係のモデル化に活用できる。 0.77
For a general purpose, we use the distance of the shortest path between any two nodes as a demonstration, which will be encoded as a bias term in the softmax attention and help the model accurately capture the spatial dependency in a graph. 一般に2つのノード間の最短経路の距離をデモとして使用し、ソフトマックスの注意におけるバイアス項として符号化し、モデルがグラフ内の空間依存性を正確に捉えるのに役立つ。 0.80
In addition, sometimes there is additional spatial information contained in edge features, such as the type of bond between two atoms in a molecular graph. 加えて、分子グラフ内の2つの原子間の結合のタイプなど、エッジの特徴に含まれる追加の空間情報が存在することもある。 0.75
We design a new edge encoding method to further take such signal into the Transformer layers. 我々は、この信号をトランスフォーマー層に取り込むための新しいエッジ符号化法を設計する。 0.74
To be concrete, for each node pair, we compute an average of dot-products of the edge features and learnable embeddings along the shortest path, then use it in the attention module. 具体的には,各ノードペアに対して,エッジ特徴の平均点積と学習可能な埋め込みを最短経路に沿って計算し,アテンションモジュールで使用する。 0.73
Equipped with these encodings, Graphormer could better model the relationship for node pairs and represent the graph. これらのエンコーディングを備えたGraphormerは、ノードペアの関係をモデル化し、グラフを表現できる。 0.78
By using the proposed encodings above, we further mathematically show that Graphormer has strong expressiveness as many popular GNN variants are just its special cases. 上述したエンコーディングを用いて、GNNの変種の多くが特別な場合であるので、Graphormerが強い表現性を持つことを示す。 0.72
The great capacity of the model leads to state-of-the-art performance on a wide range of tasks in practice. モデルのキャパシティが大きくなると、実際のさまざまなタスクで最先端のパフォーマンスが向上します。 0.54
On the large-scale quantum chemistry regression dataset3 in the very recent Open Graph Benchmark Large-Scale Challenge (OGB-LSC) [20], Graphormer outperforms most mainstream GNN variants by more than 10% points in terms of the relative error. 非常に最近のOpen Graph Benchmark Large-Scale Challenge (OGB-LSC) [20]の大規模量子化学回帰データセット3では、グラフマーは相対誤差の点において、ほとんどのメインストリームのGNN変種よりも10%以上優れている。 0.74
On other popular leaderboards of graph representation learning (e g , MolHIV, MolPCBA, ZINC) [21, 14], Graphormer also surpasses the previous best results, demonstrating the potential and adaptability of the Transformer architecture. グラフ表現学習の他の一般的なリーダボード(molhiv、molpcba、znなど) [21, 14] では、graphormerが以前の最高の結果を超え、トランスフォーマーアーキテクチャの可能性と適応性を示している。 0.73
2 Preliminary In this section, we recap the preliminaries in Graph Neural Networks and Transformer. 2 予備 本稿では,グラフニューラルネットワークとトランスフォーマーの予備機能について述べる。 0.69
Graph Neural Network (GNN). グラフニューラルネットワーク(GNN)。 0.73
Let G = (V, E) denote a graph where V = {v1, v2,··· , vn}, n = |V | is the number of nodes. G = (V, E) は、V = {v1, v2,·· , vn}, n = |V | がノードの数であるグラフを表す。 0.85
Let the feature vector of node vi be xi. ノード vi の特徴ベクトルを xi とする。 0.68
GNNs aim to learn representation of nodes and graphs. GNNはノードとグラフの表現を学習することを目指している。 0.64
Typically, modern GNNs follow a learning schema that iteratively updates the representation of a node by aggregating representations of its first or higher-order neighbors. 一般的に、現代のgnnは1次または2次の隣人の表現を集約することでノードの表現を反復的に更新する学習スキーマに従う。 0.58
We denote h(l) as the representation of vi at the l-th layer and define h(0) i = xi. h(l) を l-番目の層における vi の表現として表現し、h(0) i = xi を定義する。
訳抜け防止モード: h(l ) を l - th 層における vi の表現として表す h(0) i = xi とする。
0.79
The l-th i iteration of aggregation could be characterized by AGGREGATE-COMBINE step as 集約の l-th i 反復は AGGREGATE-COMBINE ステップによって特徴づけられる。 0.56
a(l) (1) where N (vi) is the set of first or higher-order neighbors of vi. a(l) (1) ここで N (vi) は vi の1階または高階の隣人の集合である。 0.74
The AGGREGATE function is used to gather the information from neighbors. AGGREGATE関数は、隣人からの情報を収集するために使用される。 0.68
Common aggregation functions include MEAN, MAX, SUM, which are used in different architectures of GNNs [25, 18, 47, 51]. 共通集約関数にはMEAN、MAX、SUMがあり、GNNの異なるアーキテクチャ [25, 18, 47, 51] で使用されている。 0.76
The goal of COMBINE function is to fuse the information from neighbors into the node representation. COMBINE関数の目標は、隣人からの情報をノード表現に融合させることである。 0.72
, a(l) i h(l) , a(l) i h(l) 0.85
, , h(l−1) , , h(l−1) 0.85
j : j ∈ N (vi) j :j ∈ n (vi) 0.82
i = AGGREGATE (l)(cid:16)(cid:110) i = AGGREGATE (l)(cid:16)(cid:110) 0.90
(cid:111)(cid:17) (cid:111)(cid:17) 0.75
i = COMBINE (l)(cid:16) i = COMBINE (l)(cid:16) 0.98
h(l−1) i (cid:17) h(l−1) 私は (cid:17) 0.72
3https://ogb.stanfor d.edu/kddcup2021/pcq m4m/ 3https://ogb.stanfor d.edu/kddcup2021/pcq m4m/ 0.25
2 2 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: An illustration of our proposed centrality encoding, spatial encoding, and edge encoding in Graphormer. 図1: Graphormerにおける、提案した集中性符号化、空間符号化、エッジ符号化の例示。
訳抜け防止モード: 図1 : 提案した中心性符号化,空間的符号化, Graphormerでエッジエンコーディングを行う。
0.82
In addition, for graph representation tasks, a READOUT function is designed to aggregate node features h(L) さらに、グラフ表現タスクでは、READOUT関数はノードの特徴h(L)を集約するように設計されている。 0.73
of the final iteration into the representation hG of the entire graph G: グラフ G 全体の表現 hG への最後の反復の 0.66
i (cid:16)(cid:110) 私は (cid:16)(cid:110) 0.64
(cid:111)(cid:17) (cid:111)(cid:17) 0.75
hG = READOUT hG = READOUT 0.85
h(L) i | vi ∈ G h(L) i | vi ∈ G 0.85
. (2) READOUT can be implemented by a simple permutation invariant function such as summation [51] or a more sophisticated graph-level pooling function [1]. . (2) READOUTは和[51]やより洗練されたグラフレベルのプール関数[1]のような単純な置換不変関数によって実装できる。 0.80
Transformer. トランスフォーマー。 0.60
The Transformer architecture consists of a composition of Transformer layers [46]. Transformer アーキテクチャは Transformer 層 [46] で構成されている。 0.67
Each Transformer layer has two parts: a self-attention module and a position-wise feed-forward 各トランスフォーマー層には、自己保持モジュールと位置対応フィードフォワードの2つの部分がある。 0.61
(cid:3)(cid:62) ∈ Rn×d denote the input of self-attention module where d (cid:3)(cid:62) ∈ rn×d は自己着加群の入力を表す。 0.60
network (FFN). ネットワーク(FFN)。 0.77
Let H =(cid:2)h(cid:62) H =(cid:2)h(cid:62) 0.86
is the hidden dimension and hi ∈ R1×d is the hidden representation at position i. 隠れ次元であり、hi ∈ R1×d は位置 i の隠れ表現である。 0.82
The input H is projected by three matrices WQ ∈ Rd×dK , WK ∈ Rd×dK and WV ∈ Rd×dV to the corresponding representations Q, K, V . 入力 H は、3つの行列 WQ ∈ Rd×dK , WK ∈ Rd×dK および WV ∈ Rd×dV により対応する表現 Q, K, V に投影される。 0.88
The self-attention is then calculated as: 自己注意は次のように計算される。 0.53
1 ,··· , h(cid:62) 1 ,···· , h(cid:62) 0.94
n Q = HWQ, K = HWK, n Q = HWQ, K = HWK, 0.85
V = HWV , A = V = HWV。 A = 0.79
, Attn (H) = softmax (A) V, , Attn (H) = softmax (A) V, 0.85
QK(cid:62)√ QK(cid:62)! 0.72
dK (3) (4) dK (3) (4) 0.85
where A is a matrix capturing the similarity between queries and keys. ここでAは、クエリとキーの類似性をキャプチャするマトリックスです。 0.68
For simplicity of illustration, we consider the single-head self-attention and assume dK = dV = d. The extension to the multi-head attention is standard and straightforward, and we omit bias terms for simplicity. 単頭自己注意を考慮し、dK = dV = dと仮定する。多頭注意の拡張は標準的で単純であり、単純さのバイアス項を省略する。 0.60
3 Graphormer In this section, we present our Graphormer for graph tasks. 3 グラフマー 本稿では,グラフタスク用のGraphormerについて述べる。 0.75
First, we elaborate on several key designs in the Graphormer, which serve as an inductive bias in the neural network to learn the graph representation. まず,グラフ表現を学習するためのニューラルネットワークの帰納的バイアスとして機能する,グラフマーにおけるいくつかの重要な設計について詳述する。 0.71
We further provide the detailed implementations of Graphormer. Graphormerの詳細な実装も提供します。 0.67
Finally, we show that our proposed Graphormer is more powerful since popular GNN models [25, 51, 18] are its special cases. 最後に,GNN モデル [25, 51, 18] が特殊なケースであるため,提案した Graphormer はより強力であることを示す。 0.82
3 Centrality EncodingNode Featurev5v5v4v4v1v2v 3v1v3v2Spatial EncodingQKVMatMulSca leSoftMaxMatMulv1v2v 3v4v5LinearLinearLin earv5v5v4v4v1v2v3v1v 3v2Edge Encoding 3 Centrality EncodingNode Featurev5v5v4v4v2v3v 3v3v3v2Spatial EncodingQKVMatMulSca leSoftMaxMatMulv1v3v 5LinearLinearLinearv 5v5v4v4v3v3v3v2Edge Encoding 0.48
英語(論文から抽出)日本語訳スコア
3.1 Structural Encodings in Graphormer 3.1 グラフマーの構造エンコーディング 0.67
As discussed in the introduction, it is important to develop ways to leverage the structural information of graphs into the Transformer model. 導入で論じられたように、グラフの構造情報をトランスフォーマーモデルに活用する方法を開発することが重要である。 0.77
To this end, we present three simple but effective designs of encoding in Graphormer. この目的のために、Graphormerにおける符号化のシンプルで効果的な設計を3つ提示する。 0.58
See Figure 1 for an illustration. 図1の図をご覧ください。 0.79
3.1.1 Centrality Encoding 3.1.1 中心エンコーディング 0.53
In Eq 4, the attention distribution is calculated based on the semantic correlation between nodes. Eq 4では、ノード間の意味的相関に基づいて注意分布を算出する。 0.80
However, node centrality, which measures how important a node is in the graph, is usually a strong signal for graph understanding. しかし、グラフにおけるノードの重要性を測定するノード中心性は通常、グラフ理解のための強力な信号である。 0.85
For example, celebrities who have a huge number of followers are important factors in predicting the trend of a social network [38, 37]. 例えば、膨大な数のフォロワーを持つセレブは、ソーシャルネットワークのトレンドを予測する上で重要な要素である[38, 37]。 0.70
Such information is neglected in the current attention calculation, and we believe it should be a valuable signal for Transformer models. このような情報は現在の注意計算では無視されており、トランスフォーマーモデルにとって貴重な信号であるべきだと考えています。 0.63
In Graphormer, we use the degree centrality, which is one of the standard centrality measures in literature, as an additional signal to the neural network. グラフマーでは、文学における標準集中度尺度の1つである次数集中度を、ニューラルネットワークへの追加信号として用いる。 0.73
To be specific, we develop a Centrality Encoding which assigns each node two real-valued embedding vectors according to its indegree and outdegree. 具体的には、各ノードに2つの実値埋め込みベクトルを、その内角と外角に応じて割り当てる集中エンコーディングを開発する。 0.67
As the centrality encoding is applied to each node, we simply add it to the node features as the input. 各ノードに中央エンコーディングを適用するため、入力としてノード機能に追加するだけでよい。 0.72
i = xi + z− h(0) i = xi + z− h(0) 0.94
(5) where z−, z+ ∈ Rd are learnable embedding vectors specified by the indegree deg−(vi) and outdegree deg+(vi) respectively. (5) z-, z+ ∈ Rd は、それぞれ indegree deg−(vi) と outdegree deg+(vi) で定義される可学習な埋め込みベクトルである。 0.79
For undirected graphs, deg−(vi) and deg+(vi) could be unified to deg(vi). 非有向グラフの場合、deg−(vi) と deg+(vi) は deg(vi) に統一できる。 0.81
By using the centrality encoding in the input, the softmax attention can catch the node importance signal in the queries and the keys. 入力に中心性エンコーディングを使用することで、softmaxの注意はクエリとキーのノードの重要性信号を捉えることができる。 0.83
Therefore the model can capture both the semantic correlation and the node importance in the attention mechanism. したがって、モデルは注意機構における意味的相関とノードの重要性の両方を捉えることができる。 0.72
deg−(vi) + z+ deg−(vi) + z+ 0.92
deg+(vi), 3.1.2 Spatial Encoding deg+(vi) 3.1.2 空間符号化 0.61
An advantage of Transformer is its global receptive field. Transformerの利点は、そのグローバルな受容分野である。 0.74
In each Transformer layer, each token can attend to the information at any position and then process its representation. 各トランスフォーマー層では、各トークンが任意の位置にある情報に対応し、その表現を処理することができる。 0.66
But this operation has a byproduct problem that the model has to explicitly specify different positions or encode the positional dependency (such as locality) in the layers. しかし、この操作には副産物の問題があり、モデルは異なる位置を明示的に指定するか、レイヤ内の位置依存性(局所性など)をエンコードする必要がある。
訳抜け防止モード: しかし この操作には モデルが抱える 副産物の問題があります 異なる位置を明示的に指定したり、レイヤ内の位置依存性(局所性など)をエンコードする。
0.71
For sequential data, one can either give each position an embedding (i.e., absolute positional encoding [46]) as the input or encode the relative distance of any two positions (i.e., relative positional encoding [42, 44]) in the Transformer layer. 逐次データの場合、各位置を入力として埋め込み(すなわち絶対位置符号化 [46])するか、トランス層内の任意の2つの位置(すなわち相対位置符号化 [42, 44])の相対距離を符号化することができる。 0.83
However, for graphs, nodes are not arranged as a sequence. しかし、グラフの場合、ノードはシーケンスとして配置されない。 0.68
They can lie in a multi-dimensional spatial space and are linked by edges. 多次元空間に横たわることができ、エッジによってリンクされる。 0.65
To encode the structural information of a graph in the model, we propose a novel Spatial Encoding. モデル内のグラフの構造情報を符号化するために,新しい空間符号化を提案する。 0.74
Concretely, for any graph G, we consider a function φ (vi, vj) : V × V → R which measures the spatial relation between vi and vj in graph G. The function φ can be defined by the connectivity between the nodes in the graph. 具体的には、任意のグラフ g に対して、グラフ g における vi と vj の間の空間関係を測定する函数 φ (vi, vj) : v × v → r を考える。 0.61
In this paper, we choose φ(vi, vj) to be the distance of the shortest path (SPD) between vi and vj if the two nodes are connected. 本稿では,二つのノードが接続されている場合,vi と vj の間の最短経路 (spd) の距離を φ(vi, vj) とする。 0.85
If not, we set the output of φ to be a special value, i.e., -1. もしそうでなければ、 φ の出力を特別な値、すなわち -1 に設定する。 0.78
We assign each (feasible) output value a learnable scalar which will serve as a bias term in the self-attention module. 我々は、各(可能な)出力値を学習可能なスカラーに割り当て、自己保持モジュールのバイアス項として機能する。 0.69
Denote Aij as the (i, j)-element of the Query-Key product matrix A, we have: Query-Key 製品行列 A の (i, j)-要素として Aij を記述します。 0.76
Aij = (hiWQ)(hjWK)T Aij = (hiWQ)(hjWK)T 0.85
√ d + bφ(vi,vj ), √ d + bφ(vi,vj ) 0.84
(6) where bφ(vi,vj ) is a learnable scalar indexed by φ(vi, vj), and shared across all layers. (6) ここで bφ(vi,vj ) は φ(vi,vj) によってインデックス付けされ、すべての層で共有される学習可能なスカラーである。 0.77
Here we discuss several benefits of our proposed method. 本稿では,提案手法の利点について述べる。 0.64
First, compared to conventional GNNs described in Section 2, where the receptive field is restricted to the neighbors, we can see that in Eq. 第一に、第2節で記述されている従来のGNNと比べて、受容野は隣人に限られている。 0.53
(6), the Transformer layer provides a global information that each node can attend to all other nodes in the graph. (6)Transformerレイヤは,グラフ内の他のすべてのノードに,各ノードが参加可能なグローバル情報を提供する。 0.86
Second, by using bφ(vi,vj ), each node in a single Transformer layer can adaptively attend to all other nodes according to the graph structural information. 第二に、bφ(vi,vj )を用いることで、単一のトランスフォーマー層の各ノードはグラフ構造情報に従って、他のすべてのノードに適応的に対応できる。 0.71
For example, if bφ(vi,vj ) is learned to be a decreasing function with respect to φ(vi, vj), for each node, the model will likely pay more attention to the nodes near it and pay less attention to the nodes far away from it. 例えば、各ノードに対して bφ(vi,vj ) が φ(vi,vj) に対して減少関数であると判断された場合、モデルはその近傍のノードにより多くの注意を払っており、それから遠く離れたノードにはあまり注意を払わないだろう。 0.81
4 4 0.85
英語(論文から抽出)日本語訳スコア
3.1.3 Edge Encoding in the Attention 3.1.3 エッジエンコーディング 0.80
In many graph tasks, edges also have structural features, e g , in a molecular graph, atom pairs may have features describing the type of bond between them. 多くのグラフタスクでは、エッジは、例えば分子グラフにおいて構造的特徴を持ち、原子対はそれらの間の結合のタイプを記述する特徴を持つ。 0.75
Such features are important to the graph representation, and encoding them together with node features into the network is essential. このような機能はグラフ表現にとって重要であり、ノード機能と一緒にネットワークにエンコードすることが不可欠である。 0.70
There are mainly two edge encoding methods used in previous works. 前作では主に2つのエッジ符号化方法がある。 0.65
In the first method, the edge features are added to the associated nodes’ features [21, 29]. 最初の方法では、エッジ機能は関連するノードの機能 [21, 29] に追加される。 0.79
In the second method, for each node, its associated edges’ features will be used together with the node features in the aggregation [15, 51, 25]. 第2の方法は、各ノードについて、そのエッジの特徴と集約[15, 51, 25]のノードの特徴を併用する。 0.65
However, such ways of using edge feature only propagate the edge information to its associated nodes, which may not be an effective way to leverage edge information in representation of the whole graph. しかし、エッジ機能の使用方法はエッジ情報を関連ノードにのみ伝搬するものであり、グラフ全体の表現においてエッジ情報を活用する効果的な方法ではないかもしれない。 0.78
To better encode edge features into attention layers, we propose a new edge encoding method in Graphormer. エッジ機能を注目層に符号化するために,Graphormer に新たなエッジ符号化手法を提案する。 0.75
The attention mechanism needs to estimate correlations for each node pair (vi, vj), and we believe the edges connecting them should be considered in the correlation as in [33, 48]. 注意機構は各ノード対 (vi, vj) の相関関係を推定する必要がある。
訳抜け防止モード: 注意機構は各ノード対 (vi, vj ) の相関関係を推定する必要がある。 それらを結ぶエッジは[33, 48]と相関して考えるべきだと考えています
0.84
For each ordered node pair (vi, vj), we find (one of) the shortest path SPij = (e1, e2, ..., eN ) from vi to vj, and compute an average of the dot-products of the edge feature and a learnable embedding along the path. 各順序ノード対 (vi, vj) に対して、vi から vj への最短経路 spij = (e1, e2, ..., en ) を見つけ、エッジ特徴のドット積の平均と経路に沿って学習可能な埋め込みを計算する。
訳抜け防止モード: 各順序付けられたノード対 (vi, vj ) に対して、( ) の最短経路 SPij = ( e1,) e2, ..., eN ) から vj へ。 エッジ特徴の点-積の平均を計算することで 学習可能な埋め込みが道に沿ってあります
0.82
The proposed edge encoding incorporates edge features via a bias term to the attention module. 提案するエッジエンコーディングは,アテンションモジュールへのバイアス項によるエッジ特徴を包含する。 0.78
Concretely, we modify the (i, j)-element of A in Eq (3) further with the edge encoding cij as: 具体的には、eq (3) における a の (i, j)-要素を、さらに cij をエンコードする辺を次のように変更する。 0.68
N(cid:88) n=1 n(cid:88) n=1 0.68
Aij = (hiWQ)(hjWK)T Aij = (hiWQ)(hjWK)T 0.85
√ d + bφ(vi,vj ) + cij, where cij = √ d + bφ(vi,vj ) + cij, ここで cij = 0.88
1 N xen (wE 1N xen (複数形 xens) 0.65
n )T , (7) where xen is the feature of the n-th edge en in SPij, wE dE is the dimensionality of edge feature. n)T。 (7) xen が SPij の n 番目の辺の特徴である場合、wE dE は辺の特徴の次元である。 0.74
n ∈ RdE is the n-th weight embedding, and n ∈ RdE は n 番目の重み埋め込みであり、 0.78
3.2 Implementation Details of Graphormer 3.2 graphormerの実装の詳細 0.72
Graphormer Layer. Graphormer is built upon the original implementation of classic Transformer encoder described in [46]. グラフマー層。 graphormerは[46]で記述された古典的なトランスフォーマエンコーダのオリジナル実装に基づいている。 0.62
In addition, we apply the layer normalization (LN) before the multi-head self-attention (MHA) and the feed-forward blocks (FFN) instead of after [50]. さらに,マルチヘッド自己注意(MHA)の前にレイヤ正規化(LN)を適用し,[50]以降の代わりにフィードフォワードブロック(FFN)を適用する。 0.81
This modification has been unanimously adopted by all current Transformer implementations because it leads to more effective optimization [40]. この修正は、より効率的な最適化[40]につながるため、現在のTransformer実装すべてで全会一致で採用されています。
訳抜け防止モード: この修正は、現在のTransformer実装で全会一致で採用されている。 より効果的な最適化につながります [40]
0.71
Especially, for FFN sub-layer, we set the dimensionality of input, output, and the inner-layer to the same dimension with d. We formally characterize the Graphormer layer as below: 特に、FFNサブ層の場合、入力、出力、および内部層の次元をdと同じ次元に設定する。 0.40
(cid:48)(l) = MHA(LN(h(l−1))) + h(l−1) h h(l) = FFN(LN(h (cid:48)(l) = MHA(LN(h(l−1))) + h(l−1) h h(l) = FFN(LN(h)) 0.95
(cid:48)(l))) + h (cid:48)(l)) + h 0.91
(cid:48)(l) (cid:48)(l) 0.92
(8) (9) Special Node. (8) (9) 特別なノード。 0.79
As stated in the previous section, various graph pooling functions are proposed to represent the graph embedding. 前節で述べたように、グラフ埋め込みを表すために様々なグラフプーリング関数が提案されている。 0.70
Inspired by [15], in Graphormer, we add a special node called [VNode] to the graph, and make connection between [VNode] and each node individually. Graphormerで[15]にインスパイアされた私たちは、[VNode]と呼ばれる特別なノードをグラフに追加し、[VNode]と各ノードを個別に接続します。 0.84
In the AGGREGATE-COMBINE step, the representation of [VNode] has been updated as normal nodes in graph, and the representation of the entire graph hG would be the node feature of [VNode] in the final layer. AGGREGATE-COMBINEのステップでは、[VNode]の表現はグラフの通常のノードとして更新され、グラフhG全体の表現は最終層の[VNode]のノード機能になります。 0.78
In the BERT model [11, 34], there is a similar token, i.e., [CLS], which is a special token attached at the beginning of each sequence, to represent the sequence-level feature on downstream tasks. BERTモデル[11, 34]では、下流タスクのシーケンスレベルの特徴を表現するために、各シーケンスの先頭に付けられた特別なトークンである[CLS]という、類似したトークンが存在します。 0.77
While the [VNode] is connected to all other nodes in graph, which means the distance of the shortest path is 1 for any φ([VNode], vj) and φ(vi, [VNode]), the connection is not physical. VNode] はグラフ上の他のすべてのノードに接続されているが、最も短い経路の距離は任意の φ([VNode], vj) と φ(vi, [VNode]) に対して 1 であることを意味するが、接続は物理的ではない。 0.86
To distinguish the connection of physical and virtual, inspired by [24], we reset all spatial encodings for bφ([VNode],vj ) and bφ(vi,[VNode]) to a distinct learnable scalar. 24] にインスパイアされた物理的および仮想的な接続を区別するために、bφ([VNode],vj ) と bφ(vi,[VNode]) のすべての空間符号化を別個の学習スカラーにリセットする。 0.82
3.3 How Powerful is Graphormer? 3.3 Graphormerのパワーとは? 0.74
In the previous subsections, we introduce three structural encodings and the architecture of Graphormer. 前節では,3つの構造的エンコーディングとgraphormerのアーキテクチャを紹介する。 0.75
Then a natural question is: Do these modifications make Graphormer more powerful than other GNN variants? これらの変更によって、Graphormerは他のGNNの亜種よりも強力になるのでしょうか? 0.67
In this subsection, we first give an affirmative answer by showing that Graphormer can represent the AGGREGATE and COMBINE steps in popular GNN models: 本稿ではまず,GNNモデルにおけるAGGREGATEとCOMBINEのステップをグラフマーで表現できることを示し,肯定的な回答を与える。 0.79
5 5 0.85
英語(論文から抽出)日本語訳スコア
Fact 1. By choosing proper weights and distance function φ, the Graphormer layer can represent AGGREGATE and COMBINE steps of popular GNN models such as GIN, GCN, GraphSAGE. 事実1。 適切な重みと距離関数φを選択することで、GIN、GCN、GraphSAGEといった一般的なGNNモデルのAGGREGATEおよびCOMBINEステップを表現できる。 0.70
The proof sketch to derive this result is: 1) Spatial encoding enables self-attention module to distinguish neighbor set N (vi) of node vi so that the softmax function can calculate mean statistics over N (vi); 2) Knowing the degree of a node, mean over neighbors can be translated to sum over neighbors; 3) With multiple heads and FFN, representations of vi and N (vi) can be processed separately and combined together later. 1) 空間エンコーディングにより、ノードvi の隣接集合 N (vi) を識別し、ソフトマックス関数が N (vi) の平均統計を計算できるようにし、2) ノードの次数を知ることにより、隣人の平均値が隣人の和に変換可能であること、3) 複数のヘッドとFFNを用いて、vi と N (vi) の表現を別々に処理し、後で組み合わせることができること、である。 0.78
We defer the proof of this fact to Appendix A. 我々はこの事実の証明を付録aに推論する。 0.65
Moreover, we show further that by using our spatial encoding, Graphormer can go beyond classic message passing GNNs whose expressive power is no more than the 1-Weisfeiler-Lehman (WL) test. さらに、空間符号化を用いることで、表現力が1-Weisfeiler-Lehman( WL)テスト以上の古典的なメッセージパッシングGNNを超越できることを示す。 0.69
We give a concrete example in Appendix A to show how Graphormer helps distinguish graphs that the 1-WL test fails to. appendix aの具体的な例を示し、1-wlテストが失敗したグラフをgraphormerが区別する方法を示します。 0.69
Connection between Self-attention and Virtual Node. 自己注意と仮想ノードの接続。 0.61
Besides the superior expressiveness than popular GNNs, we also find an interesting connection between using self-attention and the virtual node heuristic [15, 30, 23, 21]. 一般的なGNNよりも優れた表現性に加えて,自己注意と仮想ノードヒューリスティック [15,30,23,21] との関係も興味深い。
訳抜け防止モード: 人気GNNよりも優れた表現力に加えて、私たちは興味深い関連性を見出した。 self - attention と virtual node heuristic [ 15, 30, 23 21 ]
0.79
As shown in the leaderboard of OGB [21], the virtual node trick, which augments graphs with additional supernodes that are connected to all nodes in the original graphs, can significantly improve the performance of existing GNNs. OGB[21]のリーダーボードに示されているように、元のグラフのすべてのノードに接続された追加のスーパーノードでグラフを拡張する仮想ノードトリックは、既存のGNNの性能を大幅に改善する。 0.82
Conceptually, the benefit of the virtual node is that it can aggregate the information of the whole graph (like the READOUT function) and then propagate it to each node. 概念的には、仮想ノードの利点は、グラフ全体の情報を集約し(読み出し関数など)、各ノードに伝達できることである。
訳抜け防止モード: 概念的には、仮想ノードの利点は、(読み取り機能のような)グラフ全体の情報を集約できることである。 そしてそれを各ノードに伝播する。
0.81
However, a naive addition of a supernode to a graph can potentially lead to inadvertent over-smoothing of information propagation [23]. しかし、グラフへのスーパーノードのナイーブな付加は、情報伝達の不注意な過剰スムーシング [23] につながる可能性がある。 0.66
We instead find that such a graph-level aggregation and propagation operation can be naturally fulfilled by vanilla self-attention without additional encodings. 代わりに、このようなグラフレベルの集約と伝播操作は、付加的なエンコーディングなしでバニラ自己アテンションによって自然に達成できる。 0.51
Concretely, we can prove the following fact: Fact 2. 具体的には、以下の事実を証明できる。 0.58
By choosing proper weights, every node representation of the output of a Graphormer layer without additional encodings can represent MEAN READOUT functions. 適切な重みを選択することで、追加のエンコーディングなしでGraphormer層の出力のノード表現はMEAN READOUT関数を表現できる。 0.77
This fact takes the advantage of self-attention that each node can attend to all other nodes. この事実は、各ノードが他のすべてのノードに出席できるセルフアテンションの利点を生かしている。 0.67
Thus it can simulate graph-level READOUT operation to aggregate information from the whole graph. これにより、グラフレベルのREADOUT操作をシミュレートして、グラフ全体の情報を集約することができる。 0.62
Besides the theoretical justification, we empirically find that Graphormer does not encounter the problem of over-smoothing, which makes the improvement scalable. 理論的正当化の他に、我々はGraphormerが過度にスムースな問題に遭遇しないことを経験的に見出した。 0.64
The fact also inspires us to introduce a special node for graph readout (see the previous subsection). この事実はグラフ読み取りのための特別なノードを導入するきっかけにもなります(前の節を参照)。 0.67
4 Experiments We first conduct experiments on the recent OGB-LSC [20] quantum chemistry regression (i.e., PCQM4M-LSC) challenge, which is currently the biggest graph-level prediction dataset and contains more than 3.8M graphs in total. 4つの実験 我々は,最近のOGB-LSC [20]量子化学の回帰(PCQM4M-LSC)に関する実験を行った。
訳抜け防止モード: 4つの実験 我々はまず,最近のogb - lsc [20] 量子化学回帰(すなわち)について実験を行った。 pcqm4m - lsc )チャレンジ 現在、最大のグラフ - レベル予測データセットであり、合計で3.8m以上のグラフを含んでいる。
0.61
Then, we report the results on the other three popular tasks: ogbgmolhiv, ogbg-molpcba and ZINC, which come from the OGB [21] and benchmarking-GNN [14] leaderboards. 次に、OGB[21]とベンチマーク-GNN[14]のリーダーボードから得られるogbgmolhiv、ogbg-molpcba、ZINCの3つの一般的なタスクについて結果を報告する。 0.54
Finally, we ablate the important design elements of Graphormer. 最後に、graphormerの重要な設計要素を省略します。 0.72
A detailed description of datasets and training strategies could be found in Appendix B. データセットとトレーニング戦略の詳細な説明は、Appendix Bで見ることができる。 0.74
4.1 OGB Large-Scale Challenge 4.1 OGB大規模挑戦 0.66
Baselines. We benchmark the proposed Graphormer with GCN [25] and GIN [51], and their variants with virtual node (-VN) [15]. ベースライン。 本稿では,提案したGraphormerをGCN[25]とGIN[51]でベンチマークし,仮想ノード(-VN)[15]で変異した。 0.74
They achieve the state-of-the-art valid and test mean absolute error (MAE) on the official leaderboard4 [20]. 彼らは公式のleaderboard4[20]で最先端のバリデーションとテスト平均絶対誤差(mae)を達成している。 0.57
In addition, we compare to GIN’s multi-hop variant [5], and 12-layer deep graph network DeeperGCN [29], which also show promising performance on other leaderboards. さらに、GINのマルチホップ変種[5]と12層のディープグラフネットワークDeeperGCN [29]を比較し、他のリーダボードでも有望なパフォーマンスを示している。 0.74
We further compare our Graphormer with the recent Transformer-based graph model GT [13]. このグラフマーを最近のトランスフォーマーベースのグラフモデルgt[13]と比較する。 0.69
Settings. We primarily report results on two model sizes: Graphormer (L = 12, d = 768), and a smaller one GraphormerSMALL (L = 6, d = 512). 設定。 主に、Graphormer (L = 12, d = 768) と、GraphormerSMALL (L = 6, d = 512) の2つのモデルサイズについて結果を報告する。 0.76
Both the number of attention heads in the attention module and the dimensionality of edge features dE are set to 32. 注目モジュール内の注目ヘッド数とエッジ特徴dEの寸法を共に32とする。 0.64
We use AdamW as the optimizer, and set the hyper-parameter  to 1e-8 and (β1, β2) to (0.99,0.999). 我々はAdamWをオプティマイザとして使用し、超パラメータを 1e-8 に、(β1, β2) を (0.99,0.999) に設定する。
訳抜け防止モード: 我々は最適化器としてAdamWを使用し、ハイパーパラメータを1e-8に設定する。 and ( β1 , β2 ) to ( 0.99,0.999 ) .
0.62
The peak learning rate is set to 2e-4 (3e-4 for GraphormerSMALL) with a 60k-step warm-up stage followed by a linear decay learning rate scheduler. ピーク学習速度は2e-4 (3e-4 for GraphormerSMALL) に60kステップのウォームアップステージと線形減衰学習率スケジューラで設定される。 0.78
The total training steps are 1M. 総合訓練は100万ドル。 0.47
The batch size is set to 1024. バッチサイズは1024に設定される。 0.79
All models are trained on 8 NVIDIA V100 GPUS for about 2 days. すべてのモデルは8つのNVIDIA V100 GPUで約2日間トレーニングされる。 0.80
4https://github.com/ snap-stanford/ogb/tr ee/master/examples/l sc/pcqm4m#performanc e 4https://github.com/ snap-stanford/ogb/tr ee/master/examples/l sc/pcqm4m#performanc e 0.24
6 6 0.85
英語(論文から抽出)日本語訳スコア
Table 1: Results on PCQM4M-LSC. 表1: PCQM4M-LSCの結果。 0.69
* indicates the results are cited from the official leaderboard [20]. ※結果が公式のリーダーボード[20]から引用されていることを示す。 0.70
method GCN [25] GIN [51] メソッド GCN [25] GIN [51] 0.81
GCN-VN [25, 15] GIN-VN [51, 15] GINE-VN [5, 15] GCN-VN [25, 15] GIN-VN [51, 15] GINE-VN [5, 15] 0.89
DeeperGCN-VN [29, 15] DeeperGCN-VN [29, 15] 0.92
GT [13] GT-Wide [13] GT[13] GT-Wide [13] 0.82
GraphormerSMALL GraphormerSMALL 0.85
Graphormer #param. グラフマー #param。 0.68
2.0M 3.8M 4.9M 6.7M 13.2M 25.5M 0.6M 83.2M 12.5M 47.1M 2.0M 3.8M 4.9M 6.7M 13.2M 25.5M 0.6M 83.2M 12.5M 47.1M 0.32
train MAE 0.1318 0.1203 0.1225 0.1150 0.1248 0.1059 0.0944 0.0955 0.0778 0.0582 列車MAE 0.1318 0.1203 0.1225 0.1150 0.1248 0.1059 0.0944 0.0955 0.0778 0.0582 0.56
validate MAE 0.1691 (0.1684*) 0.1537 (0.1536*) 0.1485 (0.1510*) 0.1395 (0.1396*) 検証MAE 0.1691 (0.1684*) 0.1537 (0.1536*) 0.1485 (0.1510*) 0.1395 (0.1396*) 0.66
0.1430 0.1398 0.1400 0.1408 0.1264 0.1234 0.1430 0.1398 0.1400 0.1408 0.1264 0.1234 0.43
test MAE 0.1791* 0.1543* 0.1603* 0.1419* テスト MAE 0.1791* 0.1543* 0.1603* 0.1419* 0.67
- 0.1328 Results. - 0.1328 結果。 0.68
Table 1 summarizes performance comparisons on PCQM4M-LSC dataset. 表1はPCQM4M-LSCデータセットのパフォーマンス比較を要約する。 0.60
From the table, GIN-VN achieves the previous state-of-the-art validate MAE of 0.1395. 表から、GIN-VN は以前の最先端検証MAE 0.1395 を達成する。 0.68
The original implementation of GT [13] employs a hidden dimension of 64 to reduce the total number of parameters. GT[13]のオリジナルの実装では、パラメータの総数を減らすために、64の隠れ次元を使用している。 0.66
For a fair comparison, we also report the result by enlarging the hidden dimension to 768, denoted by GT-Wide, which leads to a total number of parameters of 83.2M. 公平な比較のために、GT-Wide で表される隠れた次元を 768 に拡大し、83.2M のパラメータの総数をもたらす結果も報告する。 0.74
While, both GT and GT-Wide do not outperform GIN-VN and DeeperGCN-VN. 一方、GTとGT-WideはGIN-VNとDeeperGCN-VNを上回っない。 0.63
Especially, we do not observe a performance gain along with the growth of parameters of GT. 特に,gtのパラメータの増大に伴い,性能向上は観測されない。 0.60
Compared to the previous state-of-the-art GNN architecture, Graphormer noticeably surpasses GINVN by a large margin, e g , 11.5% relative validate MAE decline. 従来の最先端のGNNアーキテクチャと比較して、GraphormerはGINVNを大きく上回っている。
訳抜け防止モード: 以前の状態である-----アートGNNアーキテクチャと比較してみましょう。 GraphormerはGINVNを大きく上回っている。 11.5%のMAE低下率を示した。
0.62
Noting that the test dataset is publicly unavailable, and the test MAE of Graphormer is evaluated by the OGB team on 5% of test data. テストデータセットは公開されておらず、GraphormerのテストMAEはテストデータの5%でOGBチームによって評価される。 0.72
As stated in Section 3.3, we further find that the proposed Graphormer does not encounter the problem of over-smoothing, i.e., the train and validate error keep going down along with the growth of depth and width of models. 第3節3で述べたように、提案したグラフマーは過度なスムース化の問題に遭遇しない、すなわち、列車と検証誤差は、モデルの深さと幅の増大とともに減少し続ける。 0.68
4.2 Graph Representation In this section, we further investigate the performance of Graphormer on commonly used graph-level prediction tasks of popular leaderboards, i.e., OGB [21] (OGBG-MolPCBA, OGBG-MolHIV), and benchmarking-GNN [14] (ZINC). 4.2 グラフ表現 本稿では,一般的なリーダボードのグラフレベル予測タスクであるOGB[21](OGBG-MolPCBA,OGBG-M olHIV)とベンチマークGNN[14](ZINC)におけるGraphormerの性能について検討する。 0.77
Since pre-training is encouraged by OGB, we mainly explore the transferable capability of the pre-trained Graphormer on OGB-LSC. プレトレーニングはOGBによって奨励されるため、主にOGB-LSC上での事前トレーニンググラフマーの転送能力について検討する。 0.57
Please note that the model configurations, hyper-parameters, and the pre-training performance of pre-trained Graphormers used for MolPCBA and MolHIV are different from the models used in the previous subsection. ただし, モデル構成, ハイパーパラメータ, および, MolPCBA および MolHIV に使用したトレーニング済みグラフマーの事前学習性能は, 前節で使用したモデルとは異なる。 0.84
Please refer to Appendix B for detailed descriptions. 詳細はAppendix Bを参照してください。 0.77
For benchmarking-GNN, which does not encourage large pre-trained model, we train an additional GraphormerSLIM (L = 12, d = 80, total param.= 489K) from scratch on ZINC. 大規模な事前トレーニングを推奨しないベンチマーク-GNNでは,ZINC 上でゼロから GraphormerSLIM (L = 12, d = 80, total param.= 489K) をトレーニングする。 0.70
Baselines. We report performance of GNNs which achieve top-performance on the official leaderboards5 without additional domain-specific features. ベースライン。 我々は、ドメイン固有の追加機能なしで公式のリーダーボード5上で最高性能を達成するGNNの性能を報告する。 0.60
Considering that the pre-trained Graphormer leverages external data, for a fair comparison on OGB datasets, we additionally report performance for fine-tuning GIN-VN pre-trained on PCQM4M-LSC dataset, which achieves the previous state-ofthe-art valid and test MAE on that dataset. 事前学習したGraphormerは外部データを利用するので、OGBデータセットを公平に比較するために、PCQM4M-LSCデータセット上で事前学習したGIN-VNの微調整性能を報告します。 0.71
Settings. We report detailed training strategies in Appendix B. 設定。 我々はAppendix Bで詳細なトレーニング戦略を報告した。 0.67
In addition, Graphormer is more easily trapped in the over-fitting problem due to the large size of the model and the small size of the dataset. さらに、Graphormerは、モデルのサイズとデータセットのサイズが小さいため、過度に適合する問題に陥りやすい。 0.61
Therefore, we employ a widely used data augmentation for graph - FLAG [26], to mitigate the over-fitting problem on OGB datasets. したがって、OGBデータセットの過度な適合問題を緩和するために、グラフ-FLAG [26] に広く使われているデータ拡張を用いる。 0.75
Results. Table 2, 3 and 4 summarize performance of Graphormer comparing with other GNNs on MolHIV, MolPCBA and ZINC datasets. 結果。 表2、3、4は、MollHIV、MollPCBA、ZINCデータセット上の他のGNNと比較したGraphormerのパフォーマンスを要約する。
訳抜け防止モード: 結果。 表2 3 4 Graphormerのパフォーマンスの概要 MolHIV、MollPCBA、ZINCデータセット上の他のGNNとの比較。
0.66
Especially, GT [13] and SAN [27] in Table 4 are recently proposed Transformer-based GNN models. 特に、テーブル4のGT[13]とSAN[27]は、最近、TransformerベースのGNNモデルを提案する。 0.63
Graphormer consistently and significantly outperforms previous state-of-the-art GNNs on all three datasets by a large margin. Graphormerは、従来の最先端のGNNを3つのデータセットすべてで大きく上回っている。 0.65
Specially, except Graphormer, 特に、Graphormerを除く。 0.74
5https://ogb.stanfor d.edu/docs/leader_gr aphprop/ 5https://ogb.stanfor d.edu/docs/leader_gr aphprop/ 0.26
https://github.com/g raphdeeplearning/ben chmarking-gnns/blob/ master/docs/07_ leaderboards.md https://github.com/g raphdeeplearning/ben chmarking-gnns/blob/ master/docs/07_ leaderboards.md 0.23
7 7 0.85
英語(論文から抽出)日本語訳スコア
Table 2: Results on MolPCBA. 表2: MolPCBA の結果。 0.72
Table 3: Results on MolHIV. 表3: MolHIV の結果。 0.69
method DeeperGCN-VN+FLAG [29] 方法 DeeperGCN-VN+FLAG [29] 0.70
DGN [2] GINE-VN [5] PHC-GNN [28] GINE-APPNP [5] DGN[2] GINE-VN[5] PHC-GNN[28] GINE-APPNP[5] 0.80
GIN-VN[51] (fine-tune) GIN-VN[51](微細トンネル) 0.73
Graphormer-FLAG Graphormer-FLAG 0.59
AP (%) #param. AP (%) #param。 0.82
28.42±0.43 5.6M 28.85±0.30 6.7M 29.17±0.15 6.1M 29.47±0.26 1.7M 29.79±0.30 6.1M 29.02±0.17 3.4M 119.5M 31.39±0.32 28.42±0.43 5.6M 28.85±0.30 6.7M 29.17±0.15 6.1M 29.47±0.26 1.7M 29.79±0.30 6.1M 29.02±0.17 3.4M 119.5M 31.39±0.32 0.23
method GCN-GraphNorm [5, 8] 方法 GCN-GraphNorm [5, 8] 0.83
PNA [10] PHC-GNN [28] PNA[10] PHC-GNN[28] 0.83
DeeperGCN-FLAG [29] DeeperGCN-FLAG [29] 0.84
DGN [2] GIN-VN[51] (fine-tune) DGN[2] GIN-VN[51](微細トンネル) 0.77
Graphormer-FLAG Graphormer-FLAG 0.59
AUC (%) #param. AUC (%) #param。 0.76
78.83±1.00 526K 79.05±1.32 326K 79.34±1.16 111K 79.42±1.20 532K 79.70±0.97 114K 77.80±1.82 3.3M 47.0M 80.51±0.53 78.83±1.00 526K 79.05±1.32 326K 79.34±1.16 111K 79.42±1.20 532K 79.70±0.97 114K 77.80±1.82 3.3M 47.0M 80.51±0.53 0.26
Table 4: Results on ZINC. 表4:ZINCの結果。 0.71
method GIN [51] メソッドGIN [51] 0.76
GraphSage [18] GraphSage [18] 0.85
GAT [47] GCN [25] GAT[47] GCN[25] 0.83
GatedGCN-PE [4] MPNN (sum) [15] GatedGCN-PE [4] MPNN (sum) [15] 0.99
PNA [10] GT [13] SAN [27] PNA[10]GT[13]SAN[27] 0.76
GraphormerSLIM GraphormerSLIM 0.85
#param. 509,549 505,341 531,345 505,079 505,011 480,805 387,155 588,929 508, 577 489,321 #param。 509,549 505,341 531,345 505,079 505,011 480,805 387,155 588,929 508, 577 489,321 0.64
test MAE 0.526±0.051 0.398±0.002 0.384±0.007 0.367±0.011 0.214±0.006 0.145±0.007 0.142±0.010 0.226±0.014 0.139±0.006 0.122±0.006 test MAE 0.526±0.051 0.398±0.002 0.384±0.007 0.367±0.011 0.214±0.006 0.145±0.007 0.142±0.010 0.226±0.014 0.139±0.006 0.122±0.006 0.21
the other pre-trained GNNs do not achieve competitive performance, which is in line with previous literature [19]. 他の事前訓練されたGNNは、以前の文献[19]に沿う競争性能を達成できません。 0.70
In addition, we conduct more comparisons to fine-tuning the pre-trained GNNs, please refer to Appendix C. さらに、事前訓練されたGNNの微調整との比較も、Appendix Cを参照してください。 0.65
4.3 Ablation Studies 4.3 アブレーション研究 0.72
We perform a series of ablation studies on the importance of designs in our proposed Graphormer, on PCQM4M-LSC dataset. 我々はpcqm4m-lscデータセット上で,提案するグラフマーにおける設計の重要性に関する一連のアブレーション研究を行う。 0.64
The ablation results are included in Table 5. アブレーション結果はテーブル5に含まれる。 0.75
To save the computation resources, the Transformer models in table 5 have 12 layers, and are trained for 100K iterations. 計算リソースを節約するために、テーブル5のTransformerモデルには12のレイヤがあり、100Kイテレーションでトレーニングされている。
訳抜け防止モード: 計算資源を節約するためです テーブル5のトランスフォーマーモデルは12の層を持ち、100kのイテレーションでトレーニングされる。
0.75
Node Relation Encoding. ノード関係のエンコーディング。 0.73
We compare previously used positional encoding (PE) to our proposed spatial encoding, which both aim to encode the information of distinct node relation to Transformers. 従来の位置符号化 (pe) と提案する空間符号化を比較し, それぞれ異なるノード関係の情報をエンコードすることを目的としている。 0.69
There are various PEs employed by previous Transformer-based GNNs, e g , Weisfeiler-LehmanPE (WL-PE) [56] and Laplacian PE [3, 14]. 例えば、Weisfeiler-LehmanPE (WL-PE) [56]、Laplacian PE [3, 14]などである。
訳抜け防止モード: 以前のTransformerベースのGNNにはさまざまなPEがある。 eg, Weisfeiler - LehmanPE (WL - PE ) [ 56 ] と Laplacian PE [ 3 , 14 ] である。
0.72
We report the performance for Laplacian PE since it performs well comparing to a series of PEs for Graph Transformer in previous literature [13]. 従来のグラフ変換器の一連のPEと比較すると,Laplacian PEの性能は良好である[13]。 0.60
Transformer architecture with the spatial encoding outperforms the counterpart built on the positional encoding, which demonstrates the effectiveness of using spatial encoding to capture the node spatial information. 空間符号化によるトランスフォーマティブアーキテクチャは、位置符号化に構築されたトランスフォーマティブよりも優れており、ノード空間情報をキャプチャするために空間符号化を使用することの有効性が示されている。 0.60
Centrality Encoding. 中心性エンコーディング。 0.73
Transformer architecture with degree-based centrality encoding yields a large margin performance boost in comparison to those without centrality information. 次数ベースの中心性符号化を持つトランスアーキテクチャは、中心性情報を持たないものに比べて大きなマージン性能向上をもたらす。 0.63
This indicates that the centrality encoding is indispensable to Transformer architecture for modeling graph data. これは、グラフデータのモデリングにはトランスフォーマーアーキテクチャに中心性エンコーディングが不可欠であることを示している。 0.58
Edge Encoding. エッジエンコーディング。 0.66
We compare our proposed edge encoding (denoted as via attn bias) to two commonly used edge encodings described in Section 3.1.3 to incorporate edge features into GNN, denoted as via node and via Aggr in Table 5. 提案したエッジエンコーディング( attn バイアス)と,3.1.3 に記述されている2つの一般的なエッジエンコーディングを比較して,エッジ特徴を GNN に組み込む。 0.66
From the table, the gap of performance is minor between the two conventional methods, but our proposed edge encoding performs significantly better, which indicates that edge encoding as attention bias is more effective for Transformer to capture spatial information on edges. 表から,従来の2つの手法間には性能の差は小さいが,提案するエッジエンコーディングは著しく良好であり,エッジエンコーディングは注意バイアスとして,エッジエンコーディングがエッジ上の空間情報をキャプチャする上でより効果的であることを示す。 0.72
8 8 0.85
英語(論文から抽出)日本語訳スコア
Table 5: Ablation study results on PCQM4M-LSC dataset with different designs. 表5: 異なる設計のPCQM4M-LSCデータセットにおけるアブレーション研究結果。 0.66
Node Relation Encoding Laplacian PE[13] ノード関係符号化 ラプラシアンPE[13] 0.77
Spatial Edge Encoding 空間 エッジエンコーディング 0.60
via Aggr via attn bias(Eq.7) aggr経由で attn バイアス (Eq.7) 0.61
-      -      0.82
Centrality     中央     0.78
via node - node 経由で - 0.79
 -  valid MAE  -  有効なMAE 0.79
0.2276 0.1483 0.1427 0.1396 0.1328 0.1327 0.1304 0.2276 0.1483 0.1427 0.1396 0.1328 0.1327 0.1304 0.43
5 Related Work In this section, we highlight the most recent works which attempt to develop standard Transformer architecture-based GNN or graph structural encoding, but spend less effort on elaborating the works by adapting attention mechanism to GNNs [32, 55, 7, 22, 1, 47, 48, 56, 45]. 5 関連作業 本稿では,標準的なトランスフォーマーアーキテクチャをベースとしたGNNやグラフ構造エンコーディングを開発しようとする最近の研究について紹介するが,注意機構をGNN(32,55,7,22,1,47, 48,56,45)に適応させることにより,作業の効率化を図る。 0.77
5.1 Graph Transformer 5.1 グラフ変換器 0.60
There are several works that study the performance of pure Transformer architectures (stacked by transformer layers) with modifications on graph representation tasks, which are more related to our Graphormer. グラフ表現タスクを変更することによって、純粋なトランスフォーマーアーキテクチャ(トランスフォーマー層によって積み重ねられた)のパフォーマンスを研究するいくつかの作品があります。 0.73
For example, several parts of the transformer layer are modified in [43], including an additional GNN employed in attention sub-layer to produce vectors of Q, K, and V , long-range residual connection, and two branches of FFN to produce node and edge representations separately. 例えば、変換器層のいくつかの部分は[43]で変更され、注意サブレイヤで使用される追加のGNNがQ,K,Vのベクトルを生成し、長距離残差接続とFFNの2つの分岐を分離してノードとエッジの表現を生成する。 0.69
They pre-train their model on 10 million unlabelled molecules and achieve excellent results by fine-tuning on downstream tasks. 彼らは1000万個の未標識分子でモデルを事前訓練し、下流のタスクを微調整することで優れた結果を得る。 0.48
Very recently, Dwivedi et al [13] revisit a series of works for Transformer-based GNNs, and suggest that the attention mechanism in Transformers on graph data should only aggregate the information from neighborhood (i.e., using adjacent matrix as attention mask) to ensure graph sparsity, and propose to use Laplacian eigenvector as positional encoding. 最近では、Dwivedi et al [13] は Transformer-based GNN の一連の研究を再考し、グラフデータ上のTransformer のアテンションメカニズムは、グラフのスパーシ性を確保するために、近隣(すなわち、隣接行列をアテンションマスクとして使用する)の情報のみを集約し、位置エンコーディングとしてラプラシアン固有ベクトルを使うことを提案する。 0.72
Their model GT surpasses baseline GNNs on graph representation task. 彼らのモデルGTはグラフ表現タスクのベースラインGNNを上回る。 0.73
A concurrent work [27] propose a novel full Laplacian spectrum to learn the position of each node in a graph, and empirically shows better results than GT. 同時作業[27]は、グラフ内の各ノードの位置を学習するための新しいフルラプラシアンスペクトルを提案し、gtよりも経験的に優れた結果を示す。 0.75
5.2 Structural Encodings in GNNs 5.2 GNNの構造エンコーディング 0.82
Path and Distance in GNNs. GNNでのパスと距離。 0.79
Information of path and distance is commonly used in GNNs. 経路と距離の情報は通常、gnnで使用される。 0.73
For example, an attention-based aggregation is proposed in [9] where the node features, edge features, one-hot feature of the distance and ring flag feature are concatenated to calculate the attention probabilites; similar to [9], path-based attention is leveraged in [52] to model the influence between the center node and its higher-order neighbors; a distance-weighted aggregation scheme on graph is proposed in [54]; it has been proved in [31] that adopting distance encoding (i.e., one-hot feature of the distance as extra node attribute) could lead to a strictly more expressive power than the 1-WL test. For example, an attention-based aggregation is proposed in [9] where the node features, edge features, one-hot feature of the distance and ring flag feature are concatenated to calculate the attention probabilites; similar to [9], path-based attention is leveraged in [52] to model the influence between the center node and its higher-order neighbors; a distance-weighted aggregation scheme on graph is proposed in [54]; it has been proved in [31] that adopting distance encoding (i.e., one-hot feature of the distance as extra node attribute) could lead to a strictly more expressive power than the 1-WL test. 0.97
Positional Encoding in Transformer on Graph. グラフ上のトランスにおける位置符号化 0.66
Several works introduce positional encoding (PE) to Transformer-based GNNs to help the model capture the node position information. いくつかの研究がトランスフォーマーベースのGNNに位置符号化(PE)を導入し、モデルがノードの位置情報をキャプチャするのを助ける。
訳抜け防止モード: いくつかの作品がTransformerベースのGNNに位置符号化(PE)を導入 ノードの位置情報を捉えるのに役立ちます
0.70
For example, Graph-BERT [56] introduces three types of PE to embed the node position information to model, i.e., an absolute WL-PE which represents different codes labeled by Weisfeiler-Lehman algorithm, an intimacy based PE and a hop based PE which are both variant to the sampled subgraphs. 例えば、Graph-BERT [56]は、3種類のPEを導入してノード位置情報をモデルに埋め込み、すなわちWeisfeiler-Lehmanアルゴリズムでラベル付けされた異なるコードを表す絶対的なWL-PE、親密性に基づくPEとホップベースのPEである。 0.73
Absolute Laplacian PE is employed in [13] and empircal study shows that its performance surpasses the absolute WL-PE used in [56]. 絶対ラプラシアンPEは[13]で採用され, 実験により, [56]で使用する絶対WL-PEを超える性能を示した。 0.73
Edge Feature. Except the conventionally used methods to encode edge feature, which are described in previous section, there are several attempts that exploit how to better encode edge features: an attention-based GNN layer is developed in [16] to encode edge features, where the edge feature is weighted by the similarity of the features of its two nodes; edge feature has been encoded into the popular GIN [51] in [5]; in [13], the authors propose to project edge features to an embedding エッジ機能。 エッジ特徴をエンコードする従来の方法を除いて、エッジ特徴をよりよくエンコードする方法にはいくつかの試みがある: [16]で注目ベースのGNN層を開発し、エッジ特徴を2つのノードの特徴の類似性によって重み付けし、[5]で人気のあるGIN[51]にエンコードする。
訳抜け防止モード: エッジ機能。 前節で記述したエッジ特徴をエンコードする従来の方法を除く。 エッジ機能をよりよくエンコードする方法を利用する試みはいくつかある。 注目 - エッジ機能をエンコードする [16 ] で、注目ベースのGNN層が開発されている。 エッジの特徴は 2つのノードの特徴の類似性によって重み付けされます エッジ機能は、[5 ]で人気のある GIN [51 ] にエンコードされている。 ; [13 ] では、著者はエッジ機能を埋め込みに投影することを提案します。
0.69
9 9 0.85
英語(論文から抽出)日本語訳スコア
vector, then multiply it by attention coefficients, and send the result to an additional FFN sub-layer to produce edge representations; ベクターはアテンション係数でそれを乗算し、その結果を追加のFFNサブ層に送信してエッジ表現を生成する。 0.69
6 Conclusion We have explored the direct application of Transformers to graph representation. 6 結論 グラフ表現への変換器の直接適用について検討した。 0.64
With three novel graph structural encodings, the proposed Graphormer works surprisingly well on a wide range of popular benchmark datasets. 3つの新しいグラフ構造エンコーディングにより、提案されたgraphormerは驚くほど多くの人気のあるベンチマークデータセットでうまく機能する。 0.64
While these initial results are encouraging, many challenges remain. これらの最初の成果は励まされているものの、多くの課題が残っている。 0.42
For example, the quadratic complexity of the self-attention module restricts Graphormer’s application on large graphs. 例えば、セルフアテンションモジュールの二次複雑性は、大きなグラフに対するgraphormerの応用を制限する。 0.74
Therefore, future development of efficient Graphormer is necessary. したがって、効率的なGraphormerの開発が今後必要となる。 0.65
Performance improvement could be expected by leveraging domain knowledge-powered encodings on particular graph datasets. 特定のグラフデータセットでドメイン知識によるエンコーディングを活用することで、パフォーマンスの向上が期待できる。 0.61
Finally, an applicable graph sampling strategy is desired for node representation extraction with Graphormer. 最後に,graphormerを用いたノード表現抽出には,適用可能なグラフサンプリング戦略が望まれる。 0.70
We leave them for future works. 私たちはそれらを将来の仕事のために残します。 0.46
7 Acknowledgement We would like to thank Mingqi Yang for insightful discussions. 7 承認 私たちは、Mingqi Yang氏の洞察に満ちた議論に感謝します。 0.56
This work is partially supported by the National Natural Science Foundation of China (Grant No. この研究は中国国立自然科学財団(Grant No.)が部分的に支援している。 0.77
U1811463). u1811463所属。 0.51
References [1] Jinheon Baek, Minki Kang, and Sung Ju Hwang. 参照 [1]仁平・百済・南紀・宋重王。 0.43
Accurate learning of graph representations with graph グラフによるグラフ表現の正確な学習 0.87
multiset pooling. マルチセットプール。 0.75
ICLR, 2021. iclr、2021年。 0.58
[2] Dominique Beaini, Saro Passaro, Vincent Létourneau, William L Hamilton, Gabriele Corso, and Pietro [2]ドミニク・ベイニ、サロ・パサロ、ヴィンセント・レトゥール、ウィリアム・ハミルトン、ガブリエル・コルソ、ピエトロ 0.61
Liò. Directional graph networks. リー。 指向性グラフネットワーク。 0.57
In International Conference on Machine Learning, 2021. 国際機械学習会議(2021年)に参加。 0.81
[3] Mikhail Belkin and Partha Niyogi. [3]ミハイル・ベルキンとパルタ・ニヨギ。 0.37
Laplacian eigenmaps for dimensionality reduction and data representa- 次元還元とデータ表現のためのラプラシア固有写像- 0.53
tion. Neural computation, 15(6):1373–1396, 2003. ティメント 神経計算, 15(6):1373–1396, 2003。 0.52
[4] Xavier Bresson and Thomas Laurent. 4] ザビエル・ブレッソンと トーマス・ローラン 0.53
Residual gated graph convnets. 残差ゲートグラフ共振器。 0.63
arXiv preprint arXiv:1711.07553, arXiv preprint arXiv:1711.07553, 0.65
2017. [5] Rémy Brossard, Oriel Frigo, and David Dehaene. 2017. Rémy Brossard氏、Oriel Frigo氏、David Dehaene氏。 0.74
Graph convolutions that can finally model local structure. 最終的に局所構造をモデル化できるグラフ畳み込み。 0.70
arXiv preprint arXiv:2011.15069, 2020. arXiv preprint arXiv:2011.15069, 2020 0.81
[6] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 6] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Ches, Jack Clark, Christopher Berner, Samandlish, Alec Radford Iask, Sutever, Dario 0.81
Language models are few-shot learners. 言語モデルはわずかな学習者です。 0.69
In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 1877–1901。 0.96
Curran Associates, Inc., 2020. Curran Associates, Inc., 2020 0.71
[7] Deng Cai and Wai Lam. [7]Deng CaiとWai Lam。 0.70
Graph transformer for graph-to-sequence learning. グラフ列学習のためのグラフトランスフォーマ 0.68
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 7464–7471, 2020. AAAIの立場から 人工知能会議、巻34、7464-7471、2020。 0.55
[8] Tianle Cai, Shengjie Luo, Keyulu Xu, Di He, Tie-yan Liu, and Liwei Wang. [8]Tianle Cai、Shengjie Luo、Keyulu Xu、Di He、Tie-yan Liu、Liwei Wang。 0.74
Graphnorm: A principled approach to accelerating graph neural network training. Graphnorm: グラフニューラルネットワークトレーニングを加速するための原則的なアプローチ。 0.82
In International Conference on Machine Learning, 2021. 国際機械学習会議(2021年)に参加。 0.81
[9] Benson Chen, Regina Barzilay, and Tommi Jaakkola. 9]Benson Chen、Regina Barzilay、Tommi Jaakkola。 0.57
Path-augmented graph transformer network. 経路案内グラフトランスフォーマネットワーク 0.70
arXiv preprint arXiv:1905.12712, 2019. arXiv arXiv: 1905.12712, 2019 0.80
[10] Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Liò, and Petar Veliˇckovi´c. 10]ガブリエーレ・コルソ、ルカ・カヴァレーリ、ドミニク・ビーニ、ピエトロ・リシュ、ペタル・ヴェリシコヴィ(petar velisckovi)。 0.48
Principal neighbour- hood aggregation for graph nets. 主な隣人 グラフネットのためのフードアグリゲーション。 0.57
Advances in Neural Information Processing Systems, 33, 2020. ニューラル情報処理システムの進歩 -2020年3月33日- 0.73
[11] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 11]Jacob Devlin氏、Ming-Wei Chang氏、Kenton Lee氏、Kristina Toutanova氏。 0.73
Bert: Pre-training of deep bidirectional transformers for language understanding. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.80
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, 2019. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, 2019 0.76
[12] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al An image is worth 16x16 words: Transformers for image recognition at scale. 12] alexey dosovitskiy, lucas beyer, alexander kolesnikov, dirk weissenborn, xiaohua zhai, thomas unterthiner, mostafa dehghani, matthias minderer, georg heigold, sylvain gelly, et al an image is worth 16x16 words: transformers for image recognition at scale。 0.73
arXiv preprint arXiv:2010.11929, 2020. arXiv preprint arXiv:2010.11929, 2020 0.81
[13] Vijay Prakash Dwivedi and Xavier Bresson. 13] Vijay Prakash Dwivedi氏とXavier Bresson氏。 0.84
A generalization of transformer networks to graphs. 変圧器ネットワークのグラフへの一般化 0.80
AAAI Workshop on Deep Learning on Graphs: Methods and Applications, 2021. AAAI グラフに関するDeep Learningに関するワークショップ: Methods and Applications, 2021 0.84
10 10 0.85
英語(論文から抽出)日本語訳スコア
[14] Vijay Prakash Dwivedi, Chaitanya K Joshi, Thomas Laurent, Yoshua Bengio, and Xavier Bresson. 14] Vijay Prakash Dwivedi, Chaitanya K Joshi, Thomas Laurent, Yoshua Bengio, Xavier Bresson。 0.71
Bench- marking graph neural networks. ベンチ グラフニューラルネットワークのマークです 0.65
arXiv preprint arXiv:2003.00982, 2020. arXiv preprint arXiv:2003.00982, 2020 0.81
[15] Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. 15]Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals、George E Dahl。 0.69
Neural message passing for quantum chemistry. 量子化学のためのニューラルメッセージパッシング 0.74
In International Conference on Machine Learning, pages 1263–1272. 機械学習に関する国際会議、1263-1272頁。 0.75
PMLR, 2017. 2017年、PMLR。 0.66
[16] Liyu Gong and Qiang Cheng. [16]李利雄と慶成。 0.55
Exploiting edge features for graph neural networks. グラフニューラルネットワークのエッジ機能の利用。 0.70
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9211–9219, 2019. 訴訟の手続において IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 9211–9219, 2019 0.72
[17] Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, et al Conformer: Convolution-augmente d transformer for speech recognition. Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, et al Conformer: Convolution-augmente d transformer for speech Recognition。 0.80
arXiv preprint arXiv:2005.08100, 2020. arXiv preprint arXiv:2005.08100, 2020 0.81
[18] William L Hamilton, Zhitao Ying, and Jure Leskovec. [18]William L Hamilton、Zhitao Ying、Jure Leskovec。 0.66
Inductive representation learning on large graphs. 大規模グラフ上の帰納的表現学習 0.68
In NIPS, 2017. 2017年、NIPS。 0.73
[19] W Hu, B Liu, J Gomes, M Zitnik, P Liang, V Pande, and J Leskovec. [19]W Hu、B Liu、J Gomes、M Zitnik、P Liang、V Pande、J Leskovec。 0.67
Strategies for pre-training graph 事前学習グラフの戦略 0.84
neural networks. ニューラルネットワーク。 0.65
In International Conference on Learning Representations (ICLR), 2020. iclr(international conference on learning representations)、2020年。 0.67
[20] Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, and Jure Leskovec. [20]Weihua Hu、Matthias Fey、Hongyu Ren、Maho Nakata、Yuxiao Dong、Jure Leskovec。 0.62
Ogb-lsc: A large-scale challenge for machine learning on graphs. Ogb-lsc:A グラフ上の機械学習のための大規模チャレンジ。 0.72
arXiv preprint arXiv:2103.09430, 2021. arXiv preprint arXiv:2103.09430, 2021 0.80
[21] Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, and Jure Leskovec. [21]Weihua Hu、Matthias Fey、Marinka Zitnik、Yuxiao Dong、Hongyu Ren、Boweren Liu、Michele Catasta、Jure Leskovec。
訳抜け防止モード: [21 ]Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta そして、Jure Leskovec。
0.78
Open graph benchmark: Datasets for machine learning on graphs. オープングラフベンチマーク: グラフ上の機械学習のためのデータセット。 0.86
arXiv preprint arXiv:2005.00687, 2020. arXiv preprint arXiv:2005.00687, 2020 0.81
[22] Ziniu Hu, Yuxiao Dong, Kuansan Wang, and Yizhou Sun. [22]Ziniu Hu、Yuxiao Dong、Kuansan Wang、Yizhou Sun。 0.62
Heterogeneous graph transformer. In Proceedings 異種グラフ変換器。 手続き中 0.67
of The Web Conference 2020, pages 2704–2710, 2020. The Web Conference 2020, page 2704–2710, 2020. 0.90
[23] Katsuhiko Ishiguro, Shin-ichi Maeda, and Masanori Koyama. [23]石黒勝彦、前田新一、小山正則 0.46
Graph warp module: an auxiliary module for boosting the power of graph neural networks in molecular graph analysis. graph warp module: 分子グラフ解析におけるグラフニューラルネットワークのパワーを高める補助モジュール。 0.78
arXiv preprint arXiv:1902.01020, 2019. arXiv preprint arXiv:1902.01020, 2019 0.81
[24] Guolin Ke, Di He, and Tie-Yan Liu. [24]Guolin Ke、Di He、Tie-Yan Liu。 0.73
Rethinking the positional encoding in language pre-training. 言語事前学習における位置エンコーディングの再考 0.70
ICLR, 2020. ICLR 2020. 0.67
[25] Thomas N Kipf and Max Welling. 25]トーマス・n・キップとマックス・ウェリング 0.64
Semi-supervised classification with graph convolutional networks. グラフ畳み込みネットワークを用いた半教師付き分類 0.65
arXiv preprint arXiv:1609.02907, 2016. arXiv preprint arXiv:1609.02907, 2016 0.80
[26] Kezhi Kong, Guohao Li, Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor, and Tom Goldstein. [26]Kezhi Kong、Guohao Li、Mucong Ding、Zuxuan Wu、Chen Zhu、Bernard Ghanem、Gavin Taylor、Tom Goldstein。
訳抜け防止モード: [26 ]Kezhi Kong,Guohao Li,Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor トム・ゴールドスタイン(Tom Goldstein)。
0.77
Flag: Adversarial data augmentation for graph neural networks. Flag: グラフニューラルネットワークの逆データ拡張。 0.67
arXiv preprint arXiv:2010.09891, 2020. arXiv preprint arXiv:2010.09891, 2020 0.80
[27] Devin Kreuzer, Dominique Beaini, William Hamilton, Vincent Létourneau, and Prudencio Tossou. [27]Devin Kreuzer、Dominique Beaini、William Hamilton、Vincent Létourneau、Prudencio Tossou。 0.66
Re- thinking graph transformers with spectral attention. 再会 スペクトルに注意を向けたグラフトランスフォーマーを考える。 0.61
arXiv preprint arXiv:2106.03893, 2021. arXiv preprint arXiv:2106.03893, 2021 0.80
[28] Tuan Le, Marco Bertolini, Frank Noé, and Djork-Arné Clevert. [28]Tuan Le、Marco Bertolini、Frank Noé、Djork-Arné Clevert。 0.75
Parameterized hypercomplex graph neural パラメータ化超複素グラフニューラル 0.67
networks for graph classification. グラフ分類のためのネットワーク。 0.77
arXiv preprint arXiv:2103.16584, 2021. arXiv preprint arXiv:2103.16584, 2021 0.81
[29] Guohao Li, Chenxin Xiong, Ali Thabet, and Bernard Ghanem. [29]Guohao Li、Chenxin Xiong、Ali Thabet、Bernard Ghanem。 0.65
Deepergcn: All you need to train deeper Deepergcn: もっと深くトレーニングする必要があるのは 0.71
gcns. arXiv preprint arXiv:2006.07739, 2020. gcns。 arXiv preprint arXiv:2006.07739, 2020 0.80
[30] Junying Li, Deng Cai, and Xiaofei He. [30]Junying Li、Deng Cai、Xiaofei He。 0.60
Learning graph-level representation for drug discovery. 薬物発見のためのグラフレベル表現の学習 0.71
arXiv preprint arXiv:1709.03741, 2017. arXiv arXiv:1709.03741, 2017 0.79
[31] Pan Li, Yanbang Wang, Hongwei Wang, and Jure Leskovec. [31]Pan Li、Yanbang Wang、Hongwei Wang、Jure Leskovec。 0.67
Distance encoding: Design provably more powerful neural networks for graph representation learning. 距離符号化:グラフ表現学習のためのより強力なニューラルネットワークの設計。 0.79
Advances in Neural Information Processing Systems, 33, 2020. ニューラル情報処理システムの進歩 -2020年3月33日- 0.73
[32] Yuan Li, Xiaodan Liang, Zhiting Hu, Yinbo Chen, and Eric P. Xing. [32] 李元、李清、李清、朱、陳陽、清の3人。 0.52
Graph transformer, 2019. グラフトランスフォーマー、2019年。 0.73
[33] Xi Victoria Lin, Richard Socher, and Caiming Xiong. [33]Xi Victoria Lin、Richard Socher、Caiming Xiong。 0.70
Multi-hop knowledge graph reasoning with reward 報酬を伴うマルチホップ知識グラフ推論 0.65
shaping. arXiv preprint arXiv:1808.10568, 2018. 形作る。 arXiv preprint arXiv:1808.10568, 2018 0.69
[34] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu氏、Myle Ott氏、Naman Goyal氏、Jingfei Du氏、Mandar Joshi氏、Danqi Chen氏、Omer Levy氏、Mike Lewis氏、Luke Zettlemoyer氏、Veslin Stoyanov氏。 0.73
Roberta: A robustly optimized bert pretraining approach. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.61
arXiv preprint arXiv:1907.11692, 2019. arXiv preprint arXiv:1907.11692, 2019 0.81
[35] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. [35]Ze Liu、Yutong Lin、Yue Cao、Han Hu、Yixuan Wei、Zhen Zhang、Stephen Lin、Baining Guo。 0.69
Swin transformer: Hierarchical vision transformer using shifted windows. swin transformer:シフトウィンドウを用いた階層型視覚トランスフォーマー。 0.76
arXiv preprint arXiv:2103.14030, 2021. arXiv preprint arXiv:2103.14030, 2021 0.81
[36] Haggai Maron, Heli Ben-Hamu, Hadar Serviansky, and Yaron Lipman. [36]Haggai Maron, Heli Ben-Hamu, Hadar Serviansky, Yaron Lipman。 0.79
Provably powerful graph networks. おそらく強力なグラフネットワーク。 0.82
In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 32. H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 32。 0.91
Curran Associates, Inc., 2019. Curran Associates, Inc., 2019 0.71
[37] P David Marshall. デヴィッド・マーシャル(David Marshall)。 0.64
The promotion and presentation of the self: celebrity as marker of presentational media. the promotion and presentation of the self: famous as marker of presentational media(英語) 0.82
Celebrity studies, 1(1):35–48, 2010. セレブリティ研究, 1(1):35–48, 2010 0.78
11 11 0.85
英語(論文から抽出)日本語訳スコア
[38] Alice Marwick and Danah Boyd. アリス・マーウィックとダナ・ボイド。 0.48
To see and be seen: Celebrity practice on twitter. ご覧いただこう: セレブリティはTwitterで練習している。 0.58
Convergence, 17(2):139–158, 2011. 収束。 17(2):139–158, 2011. 0.62
[39] Maho Nakata and Tomomi Shimazaki. [39]中田真穂と島崎具視。 0.54
Pubchemqc project: a large-scale first-principles electronic structure database for data-driven chemistry. Pubchemqcプロジェクト: データ駆動化学のための大規模第一原理電子構造データベース。 0.76
Journal of chemical information and modeling, 57(6):1300–1308, 2017. Journal of Chemical information and modeling, 57(6):1300–1308, 2017。 0.92
[40] Sharan Narang, Hyung Won Chung, Yi Tay, William Fedus, Thibault Fevry, Michael Matena, Karishma Malkan, Noah Fiedel, Noam Shazeer, Zhenzhong Lan, et al Do transformer modifications transfer across implementations and applications? 40] sharan narang, hyung won chung, yi tay, william fedus, thibault fevry, michael matena, karishma malkan, noah fiedel, noam shazeer, zhenzhong lan, et al do transformer modifieds transfer across implementation and applications? 0.64
arXiv preprint arXiv:2102.11972, 2021. arXiv preprint arXiv:2102.11972, 2021 0.81
[41] Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He, and Tie-Yan Liu. [41]Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu。 0.77
How could neural networks ニューラルネットワークが 0.42
understand programs? プログラムの理解は? 0.66
2021. [42] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2021. [42]Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu 0.82
Exploring the limits of transfer learning with a unified text-to-text transformer. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.82
Journal of Machine Learning Research, 21(140):1–67, 2020. Journal of Machine Learning Research, 21(140):1–67, 2020 0.92
[43] Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, and Junzhou Huang. [43]ユロン、ヤタオビアン、Tingyang Xu、Weyy Xie、Ying Wei、Wenbing Huang、Jushu Huang。 0.63
Selfsupervised graph transformer on large-scale molecular data. 大規模分子データを用いた自己教師付きグラフトランス 0.61
Advances in Neural Information Processing Systems, 33, 2020. ニューラル情報処理システムの進歩 -2020年3月33日- 0.73
[44] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. [44]Peter Shaw、Jakob Uszkoreit、Ashish Vaswani。 0.62
Self-attention with relative position representations. 相対的な位置表現による自己認識。 0.51
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 464–468, 2018. 2018年北米計算言語学会(英語版)の「2018 Conference of the North American Conference of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), page 464–468, 2018」に収録。 0.77
[45] Yunsheng Shi, Zhengjie Huang, Wenjin Wang, Hui Zhong, Shikun Feng, and Yu Sun. [45]ユンシェンシ、チェンジー・フン、ウェンジン・ワン、ウイ・ジョン、シクン・フィン、ユ・サン。 0.52
Masked label prediction: Unified message passing model for semi-supervised classification. masked label prediction: 半教師付き分類のための統一メッセージパッシングモデル。 0.76
arXiv preprint arXiv:2009.03509, 2020. arXiv preprint arXiv:2009.03509, 2020 0.81
[46] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz [46]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N Gomez,Lukasz 0.76
Kaiser, and Illia Polosukhin. KaiserとIllia Polosukhin。 0.64
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In NIPS, 2017. 2017年、NIPS。 0.73
[47] Petar Veliˇckovi´c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. 47]ペタル・ヴェリシュコヴィ、ギユム・ククル、アランタ・カサノヴァ、アドリアーナ・ロメロ、ピエトロ・リオ、ヨシュア・ベンジオ。 0.43
Graph attention networks. グラフアテンションネットワーク。 0.63
ICLR, 2018. ICLR、2018年。 0.83
[48] Guangtao Wang, Rex Ying, Jing Huang, and Jure Leskovec. [48]Guangtao Wang、Rex Ying、Jing Huang、Jure Leskovec。 0.64
Direct multi-hop attention based graph neural 直接マルチホップアテンションに基づくグラフニューラル 0.68
network. arXiv preprint arXiv:2009.14332, 2020. ネットワーク arXiv preprint arXiv:2009.14332, 2020 0.64
[49] Sinong Wang, Belinda Li, Madian Khabsa, Han Fang, and Hao Ma. [49]Sinong Wang、Belinda Li、Madian Khabsa、Han Fang、Hao Ma。 0.68
Linformer: Self-attention with linear Linformer: 線形による自己注意 0.74
complexity. arXiv preprint arXiv:2006.04768, 2020. 複雑さ。 arXiv preprint arXiv:2006.04768, 2020 0.75
[50] Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, and Tieyan Liu. [50]ルビン・Xiong、Yunchang Yang、Di He、Kai Zheng、Shuxin Zheng、Chen Xing、Huishuai Zhang、Yanyan Lan、Liwei Wang、Tieyan Liu。 0.70
On layer normalization in the transformer architecture. トランスフォーマーアーキテクチャにおける層正規化について 0.60
In International Conference on Machine Learning, pages 10524–10533. 機械学習に関する国際会議、10524-10533頁。 0.80
PMLR, 2020. PMLR、2020年。 0.88
[51] Keyulu Xu, Weihua Hu, Jure Leskovec, and Stefanie Jegelka. 51] Keyulu Xu, Weihua Hu, Jure Leskovec, Stefanie Jegelka。 0.64
How powerful are graph neural networks? グラフニューラルネットワークはどの程度強力か? 0.76
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
[52] Yiding Yang, Xinchao Wang, Mingli Song, Junsong Yuan, and Dacheng Tao. [52]Yiding Yang, Xinchao Wang, Mingli Song, Junsong Yuan, Dacheng Tao 0.67
Spagan: Shortest path graph Spagan: 最も短いパスグラフ 0.89
attention network. Advances in IJCAI, 2019. 注意ネットワーク。 IJCAI、2019年。 0.58
[53] Chengxuan Ying, Guolin Ke, Di He, and Tie-Yan Liu. [53]Chengxuan Ying、Guolin Ke、Di He、Tie-Yan Liu。 0.69
Lazyformer: Self attention with lazy update. lazyformer: lazy updateによる自己注意。 0.83
arXiv preprint arXiv:2102.12702, 2021. arXiv arXiv:2102.12702, 2021 0.80
[54] Jiaxuan You, Rex Ying, and Jure Leskovec. [54]Jixuan You、Rex Ying、Jure Leskovec。 0.61
Position-aware graph neural networks. 位置対応グラフニューラルネットワーク。 0.78
In International Conference on Machine Learning, pages 7134–7143. 海外では 機械学習会議』7134-7143頁。 0.70
PMLR, 2019. 2019年、PMLR。 0.72
[55] Seongjun Yun, Minbyul Jeong, Raehyun Kim, Jaewoo Kang, and Hyunwoo J Kim. [55]ソンジュン、ミンビウル・ジュン、ラヒョン・キム、ジェイー・カン、ヒョンウー・j・キム 0.56
Graph transformer グラフトランスフォーマ 0.71
networks. Advances in Neural Information Processing Systems, 32, 2019. ネットワーク。 Neural Information Processing Systems, 32, 2019。 0.66
[56] Jiawei Zhang, Haopeng Zhang, Congying Xia, and Li Sun. [56]jiawei zhang、haopeng zhang、congying xia、li sun。 0.50
Graph-bert: Only attention is needed for graph-bert: 注意が必要だ 0.80
learning graph representations. arXiv preprint arXiv:2001.05140, 2020. グラフ表現の学習。 arXiv preprint arXiv:2001.05140, 2020 0.80
[57] Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, and Jingjing Liu. [57]Chen Zhu、Yu Cheng、Zhe Gan、Siqi Sun、Tom Goldstein、Jingjing Liu。 0.68
Freelb: Enhanced adversarial Freelb: 敵の強化 0.87
training for natural language understanding. 自然言語理解のための訓練。 0.75
In ICLR, 2020. ICLR、2020年。 0.72
12 12 0.85
英語(論文から抽出)日本語訳スコア
A Proofs A.1 SPD can Be Used to Improve WL-Test 証明 A.1 SPDはWL-Testを改善するために使用できる 0.51
Figure 2: These two graphs cannot be distinguished by 1-WL-test. 図2: この2つのグラフは1-WL-テストでは区別できない。 0.63
But the SPD sets, i.e., the SPD from each node to others, are different: The two types of nodes in the left graph have SPD sets {0, 1, 1, 2, 2, 3} ,{0, 1, 1, 1, 2, 2} while the nodes in the right graph have SPD sets {0, 1, 1, 2, 3, 3} ,{0, 1, 1, 1, 2, 2}. しかし、spd集合、すなわち各ノードから他のノードへのspdは異なる: 左グラフの2種類のノードは、spd集合 {0, 1, 1, 2, 3} ,{0, 1, 1, 1, 1, 2, 2} を持ち、右グラフのノードは {0, 1, 1, 3, 3} ,{0, 1, 1, 1, 1, 2, 2} である。
訳抜け防止モード: しかし、spd集合、すなわち各ノードから他のノードへのspdは異なる :左グラフの2種類のノードは、spd set { 0, である。 1, 1, 2, 2, 3 }, { 0, 右グラフのノードが spd set { 0, であるのに対して、 1, 1, 1, 2, 2 } である。 1, 1, 2, 3, 3 }, { 0, 1 , 1 , 1 , 2 , 2 } .
0.77
1-WL-test fails in many cases [36, 31], thus classic message passing GNNs also fail to distinguish many pairs of graphs. 1-WL-testは多くのケース [36, 31] で失敗するため、古典的なメッセージパッシングGNNも多くのグラフの区別に失敗する。 0.72
We show that SPD might help when 1-WL-test fails, for example, in Figure 2 where 1-WL-test fails, the sets of SPD from all nodes to others successfully distinguish the two graphs. 例えば1-WLテストがフェールした場合、SPDは1-WLテストがフェールした場合、全てのノードから他のノードへのSPDのセットが2つのグラフの区別に成功していることを示す。 0.62
A.2 Proof of Fact 1 MEAN AGGREGATE. A.2 Fact 1 MEAN AGGREGATEの証明 0.80
We begin by showing that self-attention module with Spatial Encoding can represent MEAN aggregation. まず、空間符号化を用いた自己保持モジュールがMEANアグリゲーションを表現できることを示す。 0.49
This is achieved by in Eq (6): 1) setting bφ = 0 if φ = 1 and bφ = −∞ otherwise where φ is the SPD; 2) setting WQ = WK = 0 and WV to be the identity matrix. これは Eq (6): 1) φ = 1 で bφ = −∞ とすると bφ = 0 となる; 2) WQ = WK = 0 と WV を恒等行列とする。
訳抜け防止モード: これは Eq ( 6 ) : 1 ) set bφ = 0 if φ = 1 によって達成される。 bφ = −∞ でなければ、φ は SPD ; 2 ) の設定である。 WQ = WK = 0 であり、WV は恒等行列である。
0.84
Then softmax (A) V gives the average of representations of the neighbors. すると、ソフトマックス (A) V は隣人の表現の平均を与える。 0.78
SUM AGGREGATE. SUM AGGREGATE 0.54
The SUM aggregation can be realized by first perform MEAN aggregation and then multiply the node degrees. SUMアグリゲーションは、まずMEANアグリゲーションを実行し、次にノード次数を乗算することで実現できる。 0.64
Specifically, the node degrees can be extracted from Centrality Encoding by an additional head and be concatenated to the representations after MEAN aggregation. 具体的には、追加のヘッドで中心性エンコーディングからノード次数を抽出し、平均集約後の表現に結合することができる。 0.70
Then the FFN module in Graphormer can represent the function of multiplying the degree to the dimensions of averaged representations by the universal approximation theorem of FFN. すると、Graphormer の FFN 加群は FFN の普遍近似定理により、平均表現の次元に次数を乗じる関数を表現することができる。 0.78
MAX AGGREGATE. MAX AGGREGATE 0.59
Representing the MAX aggregation is harder than MEAN and SUM. MAXアグリゲーションの表現はMEANやSUMよりも難しい。 0.76
For each dimension t of the representation vector, we need one head to select the maximal value over t-th dimension in the neighbor by in Eq (6): 1) setting bφ = 0 if φ = 1 and bφ = −∞ otherwise where φ is the SPD; 2) setting WK = et which is the t-th standard basis; WQ = 0 and the bias term (which is ignored in the previous description for simplicity) of Q to be T 1; and WV = et, where T is the temperature that can be chosen to be large enough so that the softmax function can approximate hard max and 1 is the vector whose elements are all 1. For each dimension t of the representation vector, we need one head to select the maximal value over t-th dimension in the neighbor by in Eq (6): 1) setting bφ = 0 if φ = 1 and bφ = −∞ otherwise where φ is the SPD; 2) setting WK = et which is the t-th standard basis; WQ = 0 and the bias term (which is ignored in the previous description for simplicity) of Q to be T 1; and WV = et, where T is the temperature that can be chosen to be large enough so that the softmax function can approximate hard max and 1 is the vector whose elements are all 1. 0.90
COMBINE. The COMBINE step takes the result of AGGREGATE and the previous representation of current node as input. COMBINE COMBINE ステップは AGGREGATE の結果と現在のノードの以前の表現を入力として取ります。 0.66
This can be achieved by the AGGREGATE operations described above together with an additional head which outputs the features of present nodes, i.e., in Eq (6): 1) setting bφ = 0 if φ = 0 and bφ = −∞ otherwise where φ is the SPD; 2) setting WQ = WK = 0 and WV to be the identity matrix. これは、上述したAGGREGATE演算と、現在のノードの特徴を出力する付加ヘッド、すなわち Eq (6): 1) φ = 0 と bφ = −∞ を φ が SPD であるような場合、bφ = 0 と bφ = −∞ を、WQ = WK = 0 と WV を恒等行列とする。
訳抜け防止モード: これは、上述したAGGREGATE操作と、現在のノードの特徴を出力する追加のヘッドによって達成できる。 すなわち、Eq ( 6 ) : 1 ) で φ = 0 のとき bφ = 0 を設定する。 bφ = −∞ でなければ φ は SPD です ; 2 )設定 WQ = WK = 0 であり、WV は恒等行列である。
0.89
Then the FFN module can approximate any COMBINE function by the universal approximation theorem of FFN. FFN 加群は任意の COMBINE 関数を FFN の普遍近似定理により近似することができる。 0.75
A.3 Proof of Fact 2 MEAN READOUT. a.3 事実の証明 2 は読み出しを意味する。 0.52
This can be proved by setting WQ = WK = 0, the bias terms of Q, K to be T 1, and WV to be the identity matrix where T should be much larger than the scale of bφ so that T 211(cid:62) dominates the Spatial Encoding term. これは、WQ = WK = 0、Q, K のバイアス項を T 1 とし、WV を T が bφ のスケールよりもはるかに大きいものとする恒等行列とし、T 211(cid:62) が空間エンコーディング項を支配下に置くことによって証明できる。 0.83
B Experiment Details B.1 Details of Datasets B 実験の詳細 B.1 データセットの詳細 0.76
We summarize the datasets used in this work in Table 6. 本研究で使用したデータセットを表6にまとめる。 0.75
PCQM4m-LSC is a quantum chemistry graph-level prediction task in recent OGB Large-Scale Challenge, originally curated under the PubChemQC project [39]. PCQM4m-LSCは最近のOGB Large-Scale Challengeにおける量子化学グラフレベルの予測タスクである。 0.74
13 13 0.85
英語(論文から抽出)日本語訳スコア
Table 6: Statistics of the datasets. 表6: データセットの統計。 0.77
Dataset Scale PCQM4M-LSC Large OGBG-MolPCBA Medium OGBG-MolHIV Small Small ZINC (sub-set) データセット スケールPCQM4M-LSC 大OGBG-MolPCBA 中OGBG-MolHIV小小ZINC(サブセット) 0.62
# Graphs 3,803,453 437,929 41,127 12,000 # Graphs 3,803,453 437,929 41,127 12,000 0.48
# Nodes 53,814,542 11,386,154 1,048,738 277,920 # Nodes 53,814,542 11,386,154 1,048,738 277,920 0.39
# Edges Task Type Regression #端点 タスクタイプの回帰 0.64
55,399,880 12,305,805 Binary classification 1,130,993 Binary classification 597,960 55,399,880 12,305,805 バイナリ分類 1,130,993 バイナリ分類 597,960 0.39
Regression The task of PCQM4M-LSC is to predict DFT(density functional theory)-calculated HOMO-LUMO energy gap of molecules given their 2D molecular graphs, which is one of the most practically-relevant quantum chemical properties of molecule science. 回帰 PCQM4M-LSCの課題は、2次元分子グラフが与えられた分子のDFT(密度汎関数理論)で計算されたHOMO-LUMOエネルギーギャップを予測することである。 0.68
PCQM4M-LSC is unprecedentedly large in scale comparing to other labeled graph-level prediction datasets, which contains more than 3.8M graphs. PCQM4M-LSCは3.8M以上のグラフを含む他のラベル付きグラフレベルの予測データセットと比較すると、前例のない規模である。 0.59
Besides, we conduct experiments on two molecular graph datasets in popular OGB leaderboards, i.e., OGBG-MolPCBA and OGBG-MolHIV. さらに,OGBG-MolPCBAとOGBG-MolHIVの2つの分子グラフデータセットについて実験を行った。 0.62
They are two molecular property prediction datasets with different sizes. これらはサイズが異なる2つの分子特性予測データセットである。 0.66
The pre-trained knowledge of molecular graph on PCQM4M-LSC could be easily leveraged on these two datasets. PCQM4M-LSC上の分子グラフの事前学習知識は、これらの2つのデータセットで容易に活用できる。 0.56
We adopt official scaffold split on three datasets following [20, 21]. 20, 21]に続く3つのデータセットに,公式の足場スプリットを適用する。 0.55
In addition, we employ another popular leaderboard, i.e., benchmarking-gnn [14]. さらに、私たちは別の人気のあるリーダーボード、すなわちbenchmarking-gnn[14]を採用しています。 0.57
We use the ZINC datasets, which is the most popular real-world molecular dataset to predict graph property regression for contrained solubility, an important chemical property for designing generative GNNs for molecules. ZINCデータセットは,分子生成GNNを設計するための重要な化学的性質である,反可溶性に対するグラフ特性の回帰を予測するために最も人気のある実世界の分子データセットである。 0.73
Different from the scaffold spliting in OGB, uniform sampling is adopted in ZINC for data splitting. OGBのスキャフォールド分割とは異なり、ZINCではデータ分割に一様サンプリングが採用されている。 0.64
B.2 Details of Training Strategies B.2 研修戦略の詳細 0.79
B.2.1 PCQM4M-LSC B.2.1 PCQM4M-LSC 0.32
Table 7: Model Configurations and Hyper-parameters of Graphormer on PCQM4M-LSC. 表7: PCQM4M-LSC上のグラフマーのモデル構成とハイパーパラメータ。 0.71
GraphormerSMALL Graphormer Graphormer (複数形 Graphormers) 0.42
#Layers Hidden Dimension d FFN Inner-layer Dimension #Attention Heads Hidden Dimension of Each Head FFN Dropout Attention Dropout Embedding Dropout Max Steps Max Epochs Peak Learning Rate Batch Size Warm-up Steps Learning Rate Decay Adam  Adam (β1, β2) Gradient Clip Norm Weight Decay #Layers Hidden Dimension d FFN inner-layer Dimension #Attention Heads Hidden Dimension of each Head FFN Dropout Attention Dropout Embedding Max Steps Max Epochs Peak Learning Rate Batch Size Warm-up Steps Learning Rate Decay Adam > Adam (β1, β2) Gradient Clip Norm Weight Decay 0.92
6 512 512 32 16 0.1 0.1 0.0 1M 300 3e-4 1024 60K Linear 1e-8 6 512 512 32 16 0.1 0.1 0.0 1m 300 3e-4 1024 60k 線形 1e-8 0.61
5.0 0.0 12 768 768 32 24 0.1 0.1 0.0 1M 300 2e-4 1024 60K Linear 1e-8 5.0 0.0 12 768 768 32 24 0.1 0.1 0.0 1M 300 2e-4 1024 60K 線形1e-8 0.56
5.0 0.0 (0.9, 0.999) 5.0 0.0 (0.9, 0.999) 0.61
(0.9, 0.999) (0.9, 0.999) 0.71
We report the detailed hyper-parameter settings used for training Graphormer in Table 7. テーブル7におけるグラフマーのトレーニングに使用するハイパーパラメータの設定について報告する。 0.65
We reduce the FFN inner-layer dimension of 4d in [46] to d, which does not appreciably hurt the performance but significantly save the parameters. FFN内層寸法は [46] で 4d から d に減少し, 性能を損なうことなく, パラメータを著しく削減する。 0.73
The embedding dropout ratio is set to 0.1 by default in many previous Transformer works [11, 34]. 従来の多くの変圧器 [11, 34] では、組み込みドロップアウト比をデフォルトで0.1に設定する。 0.71
However, we empirically find that a small embedding dropout ratio (e g , 0.1) would lead to an observable performance drop on validation set of PCQM4M-LSC. しかし,pcqm4m-lscの検証セットでは,小さな埋め込みドロップアウト比 (0.1 など) が観測可能な性能低下をもたらすことがわかった。 0.80
One possible reason is that the molecular graph is relative small (i.e., the median of #atoms in each molecule is about 15), making graph property more sensitive to the embeddings of each node. 考えられる理由の一つは、分子グラフが相対的に小さい(すなわち、各分子内の#原子の中央値は約15である)ためであり、グラフの性質は各ノードの埋め込みに対してより敏感である。 0.78
Therefore, we set embedding dropout ratio to 0 on this dataset. そこで我々は,このデータセットにドロップアウト率を0に設定した。 0.67
B.2.2 OGBG-MolPCBA Pre-training. B.2.2 OGBG-MolPCBA 予備訓練。 0.44
We first report the model configurations and hyper-parameters of the pre-trained Graphormer on PCQM4M-LSC. まず,PCQM4M-LSC上で,事前学習したGraphormerのモデル構成とハイパーパラメータについて報告する。 0.53
Empirically, we find that the performance on MolPCBA benefits from the large pre-training model size. 経験的に、MolPCBAの性能は、トレーニング前の大規模なモデルサイズから恩恵を受ける。 0.58
Therefore, we train a deep Graphormer with 18 Transformer layers on PCQM4M-LSC. そこで,PCQM4M-LSC上で18のトランスフォーマー層を持つディープグラフマーを訓練する。 0.56
The hidden dimension and FFN inner-layer dimension are set to 1024. 隠れ次元とffn内層次元を1024に設定する。 0.62
We set peak learning rate to 1e-4 for the deep ピーク学習率を1e-4に設定し 0.67
14 14 0.85
英語(論文から抽出)日本語訳スコア
Table 8: Hyper-parameters for Graphormer on OGBG-MolPCBA, where the text in bold denotes the hyper-parameters we eventually use. 表8: OGBG-MolPCBA上のGraphormer用のハイパーパラメータ。
訳抜け防止モード: 表8 : ogbg - molpcba上のグラフマーのハイパーパラメータ 太字のテキストは、最終的に使用するhyper-パラメータを表します。
0.67
Max Epochs Peak Learning Rate Batch Size Warm-up Ratio Attention Dropout m α  Max Epochs Peak Learning Rate Batch Size Warm-up Ratio Attention Dropout m α ? 0.86
Graphormer {2, 5, 10} {2e-4, 3e-4} Graphormer {2, 5, 10} {2e-4, 3e-4} 0.82
256 0.06 0.3 256 0.06 0.3 0.59
{1, 2,3,4} {1, 2,3,4} 0.71
0.001 0.001 0.001 0.001 0.50
Graphormer. Besides, we enlarge the attention dropout ratio from 0.1 to 0.3 in both pre-training and fine-tuning to prevent the model from over-fitting. グラフマー また,事前学習と微調整の両方において注意ドロップアウト比を0.1から0.3まで拡大し,モデルの過剰フィットを防止した。 0.61
The rest of hyper-parameters remain unchanged. その他のハイパーパラメータは変わらない。 0.66
The pre-trained Graphormer used for MolPCBA achieves a valid MAE of 0.1253 on PCQM4M-LSC, which is slightly worse than the reports in Table 1. MolPCBAで使用されるトレーニング済みのGraphormerはPCQM4M-LSC上で0.1253のMAEを達成する。 0.55
Fine-tuning. Table 8 summarizes the hyper-parameters used for fine-tuning Graphormer on OGBGMolPCBA. 微調整。 表8は、OGBGMolPCBA上で微調整されたGraphormerに使用されるハイパーパラメータを要約する。 0.49
We conduct a grid search for several hyper-parameters to find the optimal configuration. 最適配置を求めるために,複数のハイパーパラメータのグリッド探索を行う。 0.79
The experimental results are reported by the mean of 10 independent runs with random seeds. 実験結果は無作為種子を用いた独立ラン10本の平均で報告された。 0.76
We use FLAG [26] with minor modifications for graph data augmentation. グラフデータ拡張に小さな修正を加えたFLAG[26]を使用します。 0.75
In particular, except the step size α and the number of steps m, we also employ a projection step in [57] with maximum perturbation . 特に、ステップサイズ α とステップ m の個数を除くと、[57] における最大摂動 s の射影ステップも採用する。 0.66
The performance of Graphormer on MolPCBA is quite robust to the hyper-parameters of FLAG. MolPCBA上でのGraphormerの性能はFLAGのハイパーパラメータに対して非常に堅牢である。 0.72
The rest of hyper-parameters are the same with the pre-training model. その他のハイパーパラメータは、事前トレーニングモデルと同じである。 0.72
B.2.3 OGBG-MolHIV B.2.3 OGBG-MolHIV 0.39
Table 9: Hyper-parameters for Graphormer on OGBG-MolHIV, where the text in bold denotes the hyper-parameters we eventually use. 表9: OGBG-MolHIV上のGraphormer用のハイパーパラメータ。
訳抜け防止モード: 表 9 : Hyper-パラメータ ここで大胆なテキストは、最終的に使用するハイパーパラメータを表します。
0.76
Max Epochs Peak Learning Rate Batch Size Warm-up Ratio Dropout Attention Dropout m α  Max Epochs Peak Learning Rate Batch Size Warm-up Ratio Dropout Attention Dropout m α ? 0.87
Graphormer 8 2e-4 128 0.06 0.1 0.1 グラフマー 8 2e-4 128 0.06 0.1 0.1 0.63
{1,2,3,4} {0.001, 0.01, 0.1, 0.2} {0, 0.001, 0.01, 0.1} {1,2,3,4} {0.001, 0.01, 0.1, 0.2} {0, 0.001, 0.01, 0.1} 0.57
Pre-training. We use the Graphormer reported in Table 1 as the pre-trained model for OGBG-MolHIV, where the pre-training hyper-parameters are summarized in Table 7. 予習。 表1で報告されたGraphormerをOGBG-MolHIVの事前トレーニングモデルとして使用し、事前トレーニングされたハイパーパラメータを表7にまとめる。 0.55
Fine-tuning. The hyper-parameters for fine-tuning Graphormer on OGBG-MolHIV are presented in Table 9. 微調整。 OGBG-MolHIV上の微調整グラフマーのハイパーパラメータを表9に示す。 0.58
Empirically, we find that the different choices of hyper-parameters of FLAG (i.e., step size α, number of steps m, and maximum perturbation ) would greatly affect the performance of Graphormer on OGBG-MolHiv. 経験的に、FLAGのハイパーパラメータ(ステップサイズ α, ステップ数 m, 最大摂動数 )の異なる選択は、OGBG-MolHiv上でのグラフマーの性能に大きな影響を与える。 0.67
Therefore, we spend more effort to conduct grid search for hyper-parameters of FLAG. そのため、フラグのハイパーパラメータのグリッド検索により多くの労力を費やしています。 0.53
We report the best hyper-parameters by the mean of 10 independent runs with random seeds. ランダムな種子を用いた10個の独立走行による最適パラメーターを報告する。 0.76
B.2.4 ZINC B.2.4 ZINC 0.50
To keep the total parameters of Graphormer less than 500K per the request from benchmarking-GNN leaderboard [14], we train a slim 12-layer Graphormer with hidden dimension of 80, which is called GraphormerSLIM in Table 4, and has about 489K learnable parameters. ベンチマークGNNのリーダボード[14]からの要求に対して,Graphormerの合計パラメータを500K未満に抑えるため,テーブル4ではGraphormerSLIMと呼ばれ,約489Kの学習可能なパラメータを持つ,80の隠蔽次元のスリム12層Graphormerをトレーニングする。 0.79
The number of attention heads is set to 8. 注意点数は8に設定されている。 0.67
Table 10 summarizes the detailed hyper-parameters on ZINC. 表10はZINCの詳細なハイパーパラメータをまとめたものです。 0.58
We train 400K steps on this dataset, and employ a weight decay of 0.01. このデータセット上で400kステップをトレーニングし、重量減少を0.01とする。 0.70
15 15 0.85
英語(論文から抽出)日本語訳スコア
Table 10: Model Configurations and Hyper-parameters on ZINC(sub-set). 表10: ZINC(sub-set)上のモデル構成とハイパーパラメータ。 0.80
#Layers Hidden Dimension FFN Inner-Layer Hidden Dimension #Attention Heads Hidden Dimension of Each Head FFN Dropout Attention Dropout Embedding Dropout Max Steps Max Epochs Peak Learning Rate Batch Size Warm-up Steps Learning Rate Decay Adam  Adam (β1, β2) Gradient Clip Norm Weight Decay #Layers Hidden Dimension FFN inner-Layer Hidden Dimension #Attention Heads Hidden Dimension of each Head FFN Dropout Attention Dropout Embedding Dropout Max Steps Max Epochs Peak Learning Rate Batch Size Warm-up Steps Learning Rate Decay Adam > Adam (β1, β2) Gradient Clip Norm Weight Decay 0.94
GraphormerSLIM GraphormerSLIM 0.85
12 80 80 8 10 0.1 0.1 0.0 400K 10K 2e-4 256 40K Linear 1e-8 12 80 80 8 10 0.1 0.1 0.0 400K 10K 2e-4256 40K 線形1e-8 0.60
5.0 0.01 (0.9, 0.999) 5.0 0.01 (0.9, 0.999) 0.61
Table 11: Hyper-parameters for fine-tuning GROVER on MolHIV and MolPCBA. 表11: MolHIV と MolPCBA 上での微調整用ハイパーパラメータ。 0.82
Dropout Max Epochs Learning Rate Batch Size Initial Learning Rate End Learning Rate Dropout Max Epochs Learning Rate Batch Size First Learning Rate End Learning Rate 0.84
GROVER {0.1, 0.5} {10, 30, 50} GROVER {0.1, 0.5} {10, 30, 50} 0.92
{64, 128} 1e-7 1e-9 {64, 128} 1e-7 1e-9 0.62
{5e-5, 1e-4, 5e-4, 1e-3} {5e-5, 1e-4, 5e-4, 1e-3} 0.53
{5e-5, 1e-4, 5e-4, 1e-3} {5e-5, 1e-4, 5e-4, 1e-3} 0.53
GROVERLARGE {0.1, 0.5} {10, 30} グルーバーラージュ {0.1, 0.5} {10, 30} 0.60
{64, 128} 1e-7 1e-9 {64, 128} 1e-7 1e-9 0.62
B.3 Details of Hyper-parameters for Baseline Methods B.3 ベースライン法におけるハイパーパラメータの詳細 0.62
In this section, we present the details of our re-implementation of the baseline methods. 本稿では,ベースラインメソッドの再実装の詳細を紹介する。 0.59
B.3.1 PCQM4M-LSC The official Github repository of OGB-LSC6 provides hyper-parameters and codes to reproduce the results on leaderboard. B.3.1 PCQM4M-LSC OGB-LSC6の公式Githubリポジトリは、リーダーボードで結果を再現するためのハイパーパラメータとコードを提供している。 0.50
These hyper-parameters work well on almost all popular GNN variants, except the DeeperGCN-VN, which results in a training divergence. これらのハイパーパラメータは、DeeperGCN-VNを除いて、ほとんどすべての人気のあるGNN変種でうまく機能し、トレーニングのばらつきをもたらす。 0.62
Therefore, for DeeperGCN-VN, we follow the official hyper-parameter setting7 provided by the authors [29]. したがって、DeeperGCN-VNでは、著者による公式なハイパーパラメータ設定7に従う[29]。 0.74
For a fair comparison to Graphormer, we train a 12-layer DeeperGCN. Graphormerと比較して、12層のDeeperGCNをトレーニングします。 0.78
The hidden dimension is set to 600. 隠し次元は600に設定される。 0.72
The batch size is set to 256. バッチサイズは256に設定される。 0.79
The learning rate is set to 1e-3, and a step learning rate scheduler is employed with the decaying step size and the decaying factor γ as 30 epochs and 0.25. 学習率を1e〜3に設定し、減衰ステップサイズ及び減衰係数γを30エポックおよび0.25にステップ学習率スケジューラを用いる。 0.73
The model is trained for 100 epochs. モデルは100エポックのトレーニングを受けています。 0.60
The default dimension of laplacian PE of GT [13] is set to 8. gt[13] のラプラシアン pe のデフォルト次元は 8 に設定される。 0.65
However, it will cause 2.91% small molecules (less than 8 atoms) to be filtered out. しかし、これは2.91%の小さな分子(原子8個未満)を濾過する原因となる。 0.83
Therefore, for GT and GT-Wide, we set the dimension of laplacian PE to 4, which results in only 0.08% filtering out. したがって、gt と gt 全体に対して、ラプラシアン pe の次元を 4 に設定すると、わずか 0.08% のフィルタリングアウトとなる。 0.53
We adopt the default hyper-parameter settings described in [13], except that we decrease the learning rate to 1e-4, which leads to a better convergence on PCQM4M-LSC. 13] で記述されたデフォルトのハイパーパラメータ設定を採用するが、学習率を 1e-4 に下げることにより、pcqm4m-lsc の収束性が向上する。 0.67
B.3.2 OGBG-MolPCBA B.3.2 OGBG-MolPCBA 0.39
To fine-tune the pre-trained GIN-VN on MolPCBA, we follow the hyper-parameter settings provided in the original OGB paper [21]. MolPCBA上で事前学習したGIN-VNを微調整するために,本論文[21]で提供されるハイパーパラメータ設定に従う。 0.61
To be more concrete, we load the pre-trained checkpoint reported in Table 1 and fine-tune it on OGBG-MolPCBA dataset. さらに具体的に言うと、Table 1で報告されたトレーニング済みのチェックポイントをロードし、OGBG-MolPCBAデータセットに微調整します。 0.52
We use the grid search on the hyper-parameters for better fine-tuning ハイパーパラメーターのグリッド検索を使って微調整する 0.60
6https://github.com/ snap-stanford/ogb/tr ee/master/examples/l sc/pcqm4m 7https://github.com/ lightaime/deep_gcns_ torch/tree/master/ex amples/ogb/ogbg_mol# 6https://github.com/ snap-stanford/ogb/tr ee/master/examples/l sc/pcqm4m 7https://github.com/ lightaime/deep_gcns_ torch/tree/master/ex amples/ogb/ogbg_mol# 0.17
train 16 列車 16 0.78
英語(論文から抽出)日本語訳スコア
Table 12: Comparison to pre-trained Transformer-based GNN on MolHIV. 表12: MolHIV 上の Transformer ベースの GNN との比較 0.81
* indicates that additional features for molecule are used. ※分子の追加的な特徴が用いられる。 0.78
Morgan Finger Prints + Random Forest* Morgan Finger Prints + Random Forest* 0.85
method GROVER*[43] 方法 GROVER*[43] 0.73
GROVERLARGE*[43] Graphormer-FLAG GROVERLARGE*[43]Graphormer-FLAG 0.92
#param. AUC (%) 80.60±0.10 230K 48.8M 79.33±0.09 107.7M 80.32±0.14 47.0M 80.51±0.53 #param。 AUC (%) 80.60±0.10 230K 48.8M 79.33±0.09 107.7M 80.32±0.14 47.0M 80.51±0.53 0.55
Table 13: Comparison to pre-trained Transformer-based GNN on MolPCBA. 表13: MolPCBA 上の Transformer ベースの GNN との比較 0.85
* indicates that additional features for molecule are used. ※分子の追加的な特徴が用いられる。 0.78
method GROVER*[43] 方法 GROVER*[43] 0.73
GROVERLARGE*[43] Graphormer-FLAG GROVERLARGE*[43]Graphormer-FLAG 0.92
AP (%) #param. AP (%) #param。 0.82
48.8M 16.77±0.36 107.7M 13.05±0.18 47.0M 31.39±0.32 48.8M 16.77±0.36 107.7M 13.05±0.18 47.0M 31.39±0.32 0.24
performance. In particular, the learning rate is selected from {1e − 5, 1e − 4, 1e − 3}; the dropout ratio is selected from {0.0, 0.1, 0.5}; the batch size is selected from {32, 64}. パフォーマンス。 特に学習率は {1e − 5, 1e − 4, 1e − 3} から選択され、ドロップアウト比は {0.0, 0.1, 0.5} から選択され、バッチサイズは {32, 64} から選択される。 0.79
B.3.3 OGBG-MolHIV B.3.3 OGBG-MolHIV 0.39
Similarly, we fine-tune the pre-trained GIN-VN on MolHIV by following the hyper-parameter settings provided in the original OGB paper [21]. 同様に、トレーニング済みのGIN-VNを、オリジナルのOGBペーパー[21]で提供されるハイパーパラメータ設定に従って、MollHIV上で微調整する。 0.55
We also conduct the grid search to look for optimal hyper-parameters. また,最適パラメータを求めるためにグリッド探索を行う。 0.67
The ranges for each hyper-parameter of grid search are the same as the previous subsection. グリッド探索の各ハイパーパラメータのレンジは、以前のサブセクションと同じである。 0.75
C More Experiments As described in the related work, GROVER is a Transformer-based GNN, which has 100 million parameters and pre-trained on 10 million unlabelled molecules using 250 Nvidia V100 GPUs. さらなる実験 GROVERはTransformerベースのGNNで、1億のパラメータを持ち、250台のNvidia V100 GPUを使用して1000万個の未標識分子で事前トレーニングされている。 0.58
In this section, we report the fine-tuning scores of GROVER on MolHIV and MolPCBA, and compare with proposed Graphormer. 本稿では,GROVER の MolHIV および MolPCBA 上での微調整スコアを報告し,提案した Graphormer と比較する。 0.84
We download the pre-trained GROVER models from its official Github webpage8, follow the official instructions9 and fine-tune the provided pre-trained checkpoints with careful search of hyper-parameters (in Table 11). トレーニング済みのGROVERモデルを、公式のGithub Webページ8からダウンロードし、公式のインストラクション9に従って、トレーニング済みのチェックポイントを微調整し、ハイパーパラメータを慎重に検索する(テーブル11)。 0.61
We find that GROVER could achieve competitive performance on MolHIV only if employing additional molecular features, i.e., morgan molecular finger prints and 2D features10. GROVERはMorgan molecular finger printsと2D features10という追加の分子機能を利用する場合にのみ、MollHIV上での競合性能を達成することができる。 0.71
Therefore, we report the scores of GROVER by taking these two additional molecular features. そこで本研究では,この2つの分子的特徴を生かしてGROVERのスコアを報告する。 0.58
Please note that, from the leaderboard11, we can know such additional molecular features are very effective on MolHIV dataset. Leaderboard11から、この追加の分子的特徴が MolHIV データセットで非常に効果的であることに注意してください。 0.73
Table 12 and 13 summarize the performance of GROVER and GROVERLARGE comparing with Graphormer on MolHIV and MolPCBA. 表12と13はgroverとgroverlargeのパフォーマンスを、molhivとmolpcbaのgraphormerと比較したものです。
訳抜け防止モード: 表 12 と 13 は GROVER と GROVERLARGE のパフォーマンスを要約する MolHIV と MolPCBA の Graphormer との比較。
0.89
From the tables, we observe that Graphormer could consistently outperform GROVER even without any additional molecular features. グラフマーは分子的特徴を伴わずともGROVERより一貫して優れていた。 0.54
D Discussion & Future Work d 討論と今後の課題 0.61
Complexity. Similar to regular Transformer, the attention mechanism in Graphormer scales quadratically with the number of nodes n in the input graph, which may be prohibitively expensive for large n and precludes its usage in settings with limited computational resources. 複雑さ。 正規トランスと同様に、グラフマーの注意機構は入力グラフのノード数nと二乗的にスケールするが、これは大きな n に対して制限的に高価であり、計算資源の制限された設定での使用を妨げている。 0.64
Recently, many solutions have been proposed to address this problem in Transformer [24, 49, 53]. 近年,Transformer [24, 49, 53] でこの問題に対処するソリューションが多数提案されている。 0.84
This issue would be greatly benefit from the future development of efficient Graphormer. この問題は、効率的なグラフマーの将来の開発から大きな恩恵を受けるでしょう。 0.68
Choice of centrality and φ. 中心性と φ の選択。 0.78
In Graphormer, there are multiple choices for the network centrality and the spatial encoding function φ(vi, vj). Graphormer では、ネットワーク中心性と空間符号化関数 φ(vi, vj) には複数の選択肢がある。 0.81
For example, one can leverage the L2 distance in 3D structure between two atoms in a molecule. 例えば、分子内の2つの原子間の3d構造のl2距離を利用することができる。 0.73
In this paper, we mainly evaluate general centrality and distance metric in graph theory, i.e., the degree centrality and the shortest path. 本稿では,グラフ理論における一般中心性と距離計量,すなわち次数中心性と最短経路について主に評価する。 0.83
Performance improvement could be expected by leveraging domain knowledge powered encodings on particular graph dataset. 特定のグラフデータセットでドメイン知識駆動のエンコーディングを活用することで、パフォーマンスの向上が期待できる。
訳抜け防止モード: パフォーマンス改善は期待できる 特定のグラフデータセットをエンコーディングするドメイン知識を活用する。
0.87
8https://github.com/ tencent-ailab/grover 9https://github.com/ tencent-ailab/grover /blob/main/README.md # 8https://github.com/ tencent-ailab/grover 9https://github.com/ tencent-ailab/grover /blob/main/README.md # 0.25
finetuning-with-exis ting-data finetuning (複数形 finetunings) 0.20
10https://github.com /tencent-ailab/grove r#optional-molecular -feature-extraction- 1 11https://ogb.stanfo rd.edu/docs/leader_g raphprop/ 10https://github.com /tencent-ailab/grove r#optional-molecular -feature-extraction- 1 11https://ogb.stanfo rd.edu/docs/leader_g raphprop/ 0.25
17 17 0.85
英語(論文から抽出)日本語訳スコア
Node Representation. There is a wide range of node representation tasks on graph structured data, such as finance, social network, and temporal prediction. ノード表現。 ファイナンス、ソーシャルネットワーク、時間予測などのグラフ構造化データには、幅広いノード表現タスクが存在する。 0.60
Graphormer could be naturally used for node representation extraction with an applicable graph sampling strategy. graphormerは、適用可能なグラフサンプリング戦略でノード表現抽出に自然に使用できる。 0.81
We leave it for future work. 私たちはそれを将来の仕事に残します。 0.57
18 18 0.85
                                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。