論文の概要、ライセンス

# (参考訳) グラフコントラスト学習改善のための逆グラフ拡張 [全文訳有]

Adversarial Graph Augmentation to Improve Graph Contrastive Learning ( http://arxiv.org/abs/2106.05819v1 )

ライセンス: CC BY 4.0
Susheel Suresh, Pan Li, Cong Hao, Jennifer Neville(参考訳) グラフニューラルネットワーク(gnn)の自己教師付き学習は,実世界のグラフ/ネットワークデータにおけるラベル不足の問題から,非常に必要とされている。 グラフコントラスト学習(GCL)は、GNNを訓練して、異なる拡張形式における同じグラフの表現間の対応を最大化することにより、ラベルを使わずに堅牢で転送可能なGNNが得られる。 しかし、従来のGCLによって訓練されたGNNは、冗長なグラフ特徴をキャプチャするリスクがしばしばあるため、不安定であり、下流タスクでサブパーのパフォーマンスを提供する。 本稿では,GCLにおける逆グラフ拡張戦略を最適化することにより,GNNがトレーニング中に冗長な情報を捕捉することを回避できる新しい原理であるAD-GCLを提案する。 ad-gclを理論的な説明と組み合わせ、訓練可能なエッジドロップグラフ拡張に基づく実用的なインスタンス化を設計する。 我々は、AD-GCL法を最先端のGCL法と比較し、分子特性の回帰と分類、およびソーシャルネットワーク分類のタスクに関する18種類のベンチマークデータセットを用いて、教師なし学習における最大14\%、転送時の6\%、および半教師付き学習環境における3\%のパフォーマンス向上を実験的に検証した。

Self-supervised learning of graph neural networks (GNN) is in great need because of the widespread label scarcity issue in real-world graph/network data. Graph contrastive learning (GCL), by training GNNs to maximize the correspondence between the representations of the same graph in its different augmented forms, may yield robust and transferable GNNs even without using labels. However, GNNs trained by traditional GCL often risk capturing redundant graph features and thus may be brittle and provide sub-par performance in downstream tasks. Here, we propose a novel principle, termed adversarial-GCL (AD-GCL), which enables GNNs to avoid capturing redundant information during the training by optimizing adversarial graph augmentation strategies used in GCL. We pair AD-GCL with theoretical explanations and design a practical instantiation based on trainable edge-dropping graph augmentation. We experimentally validate AD-GCL by comparing with the state-of-the-art GCL methods and achieve performance gains of up-to $14\%$ in unsupervised, $6\%$ in transfer, and $3\%$ in semi-supervised learning settings overall with 18 different benchmark datasets for the tasks of molecule property regression and classification, and social network classification.
公開日: Thu, 10 Jun 2021 15:34:26 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] G L . 0 1 ] G L。 0.81
s c [ 1 v 9 1 8 5 0 sc [ 1 v 9 1 8 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Adversarial Graph Augmentation to Improve 改善のための逆グラフ拡張 0.71
Graph Contrastive Learning グラフコントラスト学習 0.73
Department of Computer Science Department of Computer Science 計算機科学専攻 計算機科学専攻 0.61
Susheel Suresh Susheel–Suresh 0.66
Purdue University suresh43@purdue.edu プルデュー大学 suresh43@purdue.edu 0.68
Pan Li Purdue University panli@purdue.edu パンリ Purdue University panli@purdue.edu 0.68
Cong Hao Department of ECE コン・ハオ ECE学科 0.51
Georgia Institute of Technology callie.hao@gatech.ed u ジョージア工科大学 callie.hao@gatech.ed u 0.54
Jennifer Neville ジェニファー・ネヴィル 0.64
Department of Computer Science Purdue University 計算機科学専攻 プルデュー大学 0.65
neville@purdue.edu neville@purdue.edu 0.78
Abstract Self-supervised learning of graph neural networks (GNN) is in great need because of the widespread label scarcity issue in real-world graph/network data. 概要 グラフニューラルネットワーク(gnn)の自己教師付き学習は,実世界のグラフ/ネットワークデータにおけるラベル不足の問題から,非常に必要とされている。 0.54
Graph contrastive learning (GCL), by training GNNs to maximize the correspondence between the representations of the same graph in its different augmented forms, may yield robust and transferable GNNs even without using labels. グラフコントラスト学習(GCL)は、GNNを訓練して、異なる拡張形式における同じグラフの表現間の対応を最大化することにより、ラベルを使わずに堅牢で転送可能なGNNが得られる。 0.77
However, GNNs trained by traditional GCL often risk capturing redundant graph features and thus may be brittle and provide sub-par performance in downstream tasks. しかし、従来のGCLによって訓練されたGNNは、冗長なグラフ特徴をキャプチャするリスクがしばしばあるため、不安定であり、下流タスクでサブパーのパフォーマンスを提供する。 0.47
Here, we propose a novel principle, termed adversarial-GCL (AD-GCL), which enables GNNs to avoid capturing redundant information during the training by optimizing adversarial graph augmentation strategies used in GCL. 本稿では,GCLにおける逆グラフ拡張戦略を最適化することにより,GNNがトレーニング中に冗長な情報を捕捉することを回避できる新しい原理であるAD-GCLを提案する。 0.79
We pair AD-GCL with theoretical explanations and design a practical instantiation based on trainable edgedropping graph augmentation. ad-gclを理論的な説明と組み合わせ、訓練可能なエッジドロップグラフ拡張に基づく実用的なインスタンスを作成する。 0.49
We experimentally validate AD-GCL by comparing with the state-of-the-art GCL methods and achieve performance gains of up-to 14% in unsupervised, 6% in transfer, and 3% in semi-supervised learning settings overall with 18 different benchmark datasets for the tasks of molecule property regression and classification, and social network classification. 我々は、AD-GCL法を最先端のGCL法と比較し、分子特性の回帰と分類、およびソーシャルネットワーク分類のタスクに関する18種類のベンチマークデータセットを用いて、教師なし学習では最大14%、転送では6%、半教師なし学習では3%の性能向上を実証した。 0.60
Introduction 1 Graph representation learning (GRL) aims to encode graph-structured data into low-dimensional vector representations, which has recently shown great potential in many applications in biochemistry, physics and social science [1–3]. はじめに グラフ表現学習 (GRL) は, グラフ構造化データを低次元ベクトル表現に符号化することを目的としており, 近年, 生化学, 物理, 社会科学の多くの分野で大きな可能性を示している [1-3]。 0.62
Graph neural networks (GNNs), inheriting the power of neural networks [4, 5], have become the almost de facto encoders for GRL [6–9]. ニューラルネットワーク [4, 5] のパワーを継承するグラフニューラルネットワーク (GNN) は,GRL [6–9] の事実上のエンコーダとなっている。 0.82
GNNs have been mostly studied in cases with supervised end-to-end training [10–16], where a large number of task-specific labels are needed. GNNは主に、多数のタスク固有のラベルを必要とする教師付きエンドツーエンドトレーニング[10–16]のケースで研究されている。 0.66
However, in many applications, annotating labels of graph data takes a lot of time and resources [17, 18], e g , identifying pharmacological effect of drug molecule graphs requires living animal experiments [19]. しかし、多くの応用において、グラフデータのアノテートには多くの時間とリソース [17, 18], eg がかかり、薬物分子グラフの薬理学的効果を識別するには生きた動物実験 [19] が必要である。 0.81
Therefore, recent research efforts are directed towards studying self-supervised learning for GNNs, where only limited or even no labels are needed [18, 20–31]. したがって、近年の研究は、ラベルが限定的または全く必要とされないGNNのための自己教師型学習の研究に向けられている [18, 20–31]。 0.64
Designing proper self-supervised-lear ning principles for GNNs is crucial, as they drive what information of graph-structured data will be captured by GNNs and may heavily impact their performance in downstream tasks. GNNの適切な自己教師型学習原則の設計は、グラフ構造化データの情報をGNNが取得し、下流タスクのパフォーマンスに大きな影響を与える可能性があるため、極めて重要である。 0.67
Many previous works adopt the edge-reconstruction principle to match traditional network-embedding requirement [32–35], where the edges of the input graph are expected to be reconstructed based on the output of GNNs [20, 21, 36]. GNN[20,21,36]の出力に基づいて入力グラフのエッジが再構成されると予想される従来のネットワーク埋め込み要求[32–35]に適合するエッジ再構成原理を、多くの先行研究で採用している。 0.78
Experiments showed that these GNN models learn to over-emphasize node proximity [23] and may lose subtle but crucial structural information, thus failing in many tasks including node-role classification [16, 35, 37, 38] and graph classification [17]. 実験により,これらのgnnモデルがノード近接度 [23] を過大に強調し,微妙だが重要な構造情報を失う可能性があり,ノードロール分類 [16,35,37,38] やグラフ分類 [17] といった多くのタスクで失敗することが分かった。 0.72
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
Figure 1: The AD-GCL principle and its instantiation based on learnable edge-dropping augmentation. 図1:AD-GCL原則とその学習可能なエッジドロップによる拡張に基づくインスタンス化。 0.65
ADGCL contains two components for graph data encoding and graph data augmentation. ADGCLはグラフデータエンコーディングとグラフデータ拡張のための2つのコンポーネントを含んでいる。 0.68
The GNN encoder f (·) maximizes the mutual information between the original graph G and the augmented graph t(G) while the GNN augmenter optimizes the augmentation T (·) to remove the information for the original graph. GNNエンコーダf(·)は、原グラフGと増グラフt(G)との相互情報を最大化し、GNNオーグメンタは増分T(·)を最適化して原グラフの情報を除去する。 0.80
The instantiation of AD-GCL proposed in this work uses edge dropping: An edge e of G is randomly dropped according to Bernoulli(ωe), where ωe is parameterized by the GNN augmenter. この研究で提案されたAD-GCLのインスタンス化は、エッジドロップを利用する: G のエッジ e は、Bernoulli (ωe) に従ってランダムにドロップされる。 0.65
To avoid the above issue, graph contrastive learning (GCL) has attracted more attention recently [18, 22, 23, 25–31]. 上記の問題を避けるため,グラフコントラスト学習(GCL)が近年注目されている[18, 22, 23, 25–31]。 0.80
GCL leverages the mutual information maximization principle (InfoMax) [39] that aims to maximize the correspondence between the representations of a graph (or a node) in its different augmented forms [18, 24, 25, 28–31]. gclは、グラフ(またはノード)の異なる拡張形式 [18,24,25,28-31] における表現間の対応を最大化することを目的とした相互情報最大化原理 (infomax) [39] を利用する。 0.79
Perfect correspondence indicates that a representation precisely identifies its corresponding graph (or node) and thus the encoding procedure does not decrease the mutual information between them. 完全対応は、表現が対応するグラフ(またはノード)を正確に識別することを示し、符号化手順がそれらの間の相互情報を減らすことはない。 0.64
However, researchers have found that the InfoMax principle may be risky because it may push encoders to capture redundant information that is irrelevant to the downstream tasks: Redundant information suffices to identify each graph to achieve InfoMax, but encoding it yields brittle representations and may severely deteriorate the performance of the encoder in the downstream tasks [40]. しかし、研究者らは、InfoMaxの原則は、エンコーダに下流タスクとは無関係な冗長な情報をキャプチャするよう促す可能性があることを発見している: 冗長な情報は、各グラフを識別してInfoMaxを達成するのに十分であるが、エンコーダは脆い表現をもたらし、下流タスク[40]におけるエンコーダの性能を著しく低下させる可能性がある。 0.64
This observation reminds us of another principle, termed information bottleneck (IB) [41–46]. この観察は、情報ボトルネック(IB)[41-46]と呼ばれる別の原則を思い出させる。 0.68
As opposed to InfoMax, IB asks the encoder to capture the minimal sufficient information for the downstream tasks. IBはInfoMaxとは対照的に、ダウンストリームタスクに必要な最小限の情報を取得するようにエンコーダに要求する。
訳抜け防止モード: IBはInfoMaxとは対照的にエンコーダを尋ねる 下流の作業に必要な 最小限の情報を取得するためです
0.77
Specifically, IB minimizes the information from the original data while maximizing the information that is relevant to the downstream tasks. 具体的には、IBは、下流タスクに関連する情報を最大化しながら、元のデータからの情報を最小化する。 0.65
As the redundant information gets removed, the encoder learnt by IB tends to be more robust and transferable. 冗長な情報が取り除かれると、IBが学習したエンコーダはより堅牢で転送可能である。 0.75
Recently, IB has been applied to GNNs [47, 48]. IBは近年GNNにも適用されている[47, 48]。 0.81
But IB needs the knowledge of the downstream tasks that may not be available. しかし、IBはダウンストリームタスクの知識を必要とします。 0.57
Hence, a natural question emerges: When the knowledge of downstream tasks are unavailable, how to train GNNs that may remove redundant information? ダウンストリームタスクの知識が利用できないとき、冗長な情報を除去する可能性のあるGNNをどうやってトレーニングするか? 0.73
Previous works highlight some solutions by designing data augmentation strategies for GCL but those strategies are typically task-related and sub-optimal. これまでの研究は、GCLのデータ拡張戦略を設計することで、いくつかのソリューションを強調してきた。 0.52
They either leverage domain knowledge [25, 28, 30], e g , node centralities in network science or molecule motifs in bio-chemistry, or depend on extensive evaluation on the downstream tasks, where the best strategy is selected based on validation performance [24, 30]. ドメイン知識 [25, 28, 30], eg, ネットワーク科学におけるノード中心性, 生化学における分子モチーフ, あるいは下流のタスクに対する広範な評価に依存するか, 検証性能 [24, 30] に基づいて最良の戦略が選択される。 0.86
In this paper, we approach this question by proposing a novel principle that pairs GCL with adversarial training, termed AD-GCL, as shown in Fig 1. 本稿では、図1に示すようなAD-GCLと呼ばれる、GCLと逆行訓練を組み合わせた新しい原則を提案することにより、この問題にアプローチする。 0.67
We particularly focus on training self-supervised GNNs for graph-level tasks, though the idea may be generalized for node-level tasks. 特にグラフレベルのタスクに対する自己教師型GNNのトレーニングに重点を置いています。 0.54
AD-GCL consists of two components: The first component contains a GNN encoder, which adopts InfoMax to maximize the correspondence/mutua l information between the representations of the original graph and its augmented graphs. AD-GCLは2つのコンポーネントから構成される: 最初のコンポーネントはGNNエンコーダを含み、InfoMaxを採用して、元のグラフとその拡張グラフの表現の対応/変更情報を最大化する。 0.69
The second component contains a GNN-based augmenter, which aims to optimize the augmentation strategy to decrease redundant information from the original graph as much as possible. 第2のコンポーネントは、GNNベースの拡張器を含み、拡張戦略を最適化し、元のグラフから可能な限り冗長な情報を減らすことを目的としている。 0.56
AD-GCL essentially allows the encoder capturing the minimal sufficient information to distinguish graphs in the dataset. ad-gclは基本的に、エンコーダがデータセット内のグラフを識別するための最小限の情報をキャプチャできる。
訳抜け防止モード: AD - GCLは基本的に エンコーダはデータセットのグラフを識別するのに 十分な最小限の情報を取得する
0.63
We further provide theoretical explanations of AD-GCL. さらにAD-GCLの理論的説明を行う。 0.67
We show that with certain regularization on the search space of the augmenter, AD-GCL can yield a lower bound guarantee of the information related to the downstream tasks, while simultaneously holding an upper bound guarantee of the redundant information from the original graphs, which matches the aim of the IB principle. 加算器の探索空間上の一定の正規化により、AD-GCLは、IB原理の目的と一致する元のグラフからの冗長な情報の上位境界保証を同時に保持しながら、下流タスクに関連する情報の下位境界保証を得ることができることを示す。 0.78
We further give an instantiation of AD-GCL: The GNN augmenter adopts a task-agnostic augmentation strategy and will learn an input-graph-dependen t non-uniform-edge-dro p probability to perform graph augmentation. gnn拡張器はタスクに依存しない拡張戦略を採用しており、入力グラフに依存しない非一様エッジドロップ確率を学習してグラフ拡張を行う。 0.55
2 43521GNN-encoderGNN- augmenter43521Origin al InputMaximize InformationMinimizeI nformationSampleGNN- encoderLearnable Graph Data Augmentation 12345Node EmbeddingsEdge EmbeddingsBernoulli parameters Edge-dropping InstantiationProject ion HeadProjection HeadDropped EdgesAD-GCL: , where 2 43521GNN-encoderGNN- augmenter43521Origin al InputMaximizeInforma tionSampleGNN-encode rLearnable Graph Data Augmentation 12345Node EmbeddingsEdge EmbeddingsBernoulliパラメータ Edge-dropping Instantiation Projection Head Projection HeadDropped EdgesAD-GCL: 0.69
英語(論文から抽出)日本語訳スコア
Finally, we extensively evaluate AD-GCL on 18 different benchmark datasets for molecule property classification and regression, and social network classification tasks in different setting viz. 最後に、分子特性分類および回帰のための18のベンチマークデータセットと、異なる設定ビズにおけるソーシャルネットワーク分類タスクについて、AD-GCLを広範囲に評価した。
訳抜け防止モード: 最後に,分子特性の分類と回帰のための18種類のベンチマークデータセット上で,AD-GCLを広範囲に評価した。 異なる設定で ソーシャルネットワークの分類タスクを
0.70
unsupervised learning (Sec. unsupervised learning (複数形 unsupervised learnings) 0.61
5.1), transfer learning (Sec. 5.1)転送学習(sec)。 0.78
5.3) and semi-supervised learning (Sec. 5.3)と半教師付き学習(sec。 0.62
5.4) learning. AD-GCL achieves significant performance gains in relative improvement and high mean ranks over the datasets compared to state-of-the-art baselines. 5.4) 学習。 AD-GCLは、最先端のベースラインと比較して、データセットに対する相対的な改善と平均ランクにおいて、大幅なパフォーマンス向上を実現している。 0.59
We also study the theoretical aspects of AD-GCL with apt experiments and analyze the results to offer fresh perspectives (Sec. また,AD-GCLの理論的側面を適応実験を用いて検討し,新たな視点(Sec。 0.69
5.2): Interestingly, we observe that AD-GCL outperforms traditional GCL based on non-optimizable augmentation across almost the entire range of perturbation levels. 5.2) 興味深いことに、ad-gclは摂動レベルの範囲のほぼ全域にわたって最適化できない拡張度に基づいて従来のgclを上回っている。 0.52
2 Notations and Preliminaries We first introduce some preliminary concepts and notations for further exposition. 2 記法と予備論 まず、いくつかの予備概念と記法を紹介します。 0.52
In this work, we consider attributed graphs G = (V, E) where V is a node set and E is an edge set. 本研究では、V をノード集合、E をエッジ集合とする属性グラフ G = (V, E) を考える。 0.68
G may have node attributes {Xv ∈ RF | v ∈ V } and edge attributes {Xe ∈ RF | e ∈ E} of dimension F . G は次元 F のノード属性 {Xv ∈ RF | v ∈ V } と辺属性 {Xe ∈ RF | e ∈ E} を持つことができる。 0.82
We denote the set of the neighbors of a node v as Nv. ノード v の近傍の集合を nv として表す。 0.59
Learning Graph Representations. Given a set of graphs Gi, i = 1, 2, ..., n, in some universe G, the aim is to learn an encoder f : G → Rd, where f (Gi) can be further used in some downstream task. グラフ表現の学習。 ある宇宙 G において、グラフの集合 Gi, i = 1, 2, ..., n が与えられたとき、目的はエンコーダ f : G → Rd を学ぶことである。
訳抜け防止モード: グラフ表現の学習。 グラフの集合 Gi が与えられたとき、i = 1, 2, ある宇宙 G において、目的はエンコーダ f : G → Rd を学ぶことである。 ここで f ( Gi ) はダウンストリームタスクでさらに使うことができる。
0.81
We also assume that Gi’s are all IID sampled from an unknown distribution PG defined over G. In a downstream task, each Gi is associated with a label yi ∈ Y. また、G’s は G 上で定義された未知の分布 PG からサンプリングされたすべての IID であると仮定する。
訳抜け防止モード: これも仮定する。 Gi ’s are all IID sampled from a unknown distribution PG defined on G. In a downstream task。 各 Gi はラベル yi ∈ Y に関連付けられる。
0.83
Another model q : Rd → Y will be learnt to predict Yi based on q(f (Gi)). 別のモデル q : Rd → Y は q(f(Gi)) に基づいて Yi を予測することを学習する。 0.88
We assume (Gi, Yi)’s are IID sampled from a distribution PG×Y = PY|GPG, where PY|G is the conditional distribution of the graph label in the downstream task given the graph. ここで、(Gi, Yi) は PG×Y = PY|GPG から IID と仮定し、PY|G はグラフが与えられた下流タスクにおけるグラフラベルの条件分布である。 0.83
Graph Neural Networks (GNNs). グラフニューラルネットワーク(GNN)。 0.72
In this work, we focus on using GNNs, message passing GNNs in particular [49], as the encoder f. For a graph G = (V, E), every node v ∈ V will be paired with a node representation hv initialized as h(0) v = Xv. グラフ g = (v, e) に対して、すべてのノード v ∈ v は h(0) v = xv として初期化されたノード表現 hv と対になる。
訳抜け防止モード: 本稿では,gnn,特にメッセージパッシングgnn,[49 ]の使用に注目する。 グラフ g = (v, v) に対するエンコーダ f として e ) すべてのノード v ∈ v は、h(0 ) v = xv として初期化されるノード表現 hv と対になる。
0.81
These representations will be updated by a GNN. これらの表現はGNNによって更新される。 0.63
(cid:32) During the kth iteration, each h(k−1) is updated using v(cid:48)s neighbourhood information expressed as, (cid:32) k 反復の間、各 h(k−1) は v(cid:48) の近傍情報を用いて更新される。 0.76
v , AGGREGATE(k)(cid:16) (cid:8)(h(k−1) v , AGGREGATE(k)(cid:16) (cid:8)(h(k−1)) 0.83
h(k) v = UPDATE(k) h(k) v = UPDATE(k) 0.85
(1) where AGGREGATE(·) is a trainable function that maps the set of node representations and edge attributes Xuv to an aggregated vector, UPDATE(·) is another trainable function that maps both v’s current representation and the aggregated vector to v’s updated representation. 1) AGGREGATE(·) がノード表現とエッジ属性の集合 Xuv を集約ベクトルにマッピングするトレーニング可能な関数である場合、UDDATE(·) は v の現在の表現と集約ベクトルの両方を v の更新された表現にマッピングするトレーニング可能な関数である。 0.83
After K iterations of Eq. Eq の K イテレーションの後。 0.80
1, the graph representation is obtained by pooling the final set of node representations as, 1 グラフ表現は、ノード表現の最終セットをプールして得られる。 0.66
u h(k−1) うーん h(k−1) 0.69
v (cid:9)(cid:17)(cid: 33) v (cid:9)(cid:17)(cid: 33) 0.79
, Xuv) | u ∈ Nv , Xuv) | u ∈ Nv 0.85
f (G) :(cid:44) hG = POOL(cid:0){h(K) f(G) :(cid:44) hG = POOL(cid:0){h(K) 0.97
v | v ∈ V }(cid:1) v | v ∈ V }(cid:1) 0.91
(2) For design choices regarding aggregation, update and pooling functions we refer the reader to [3,7,8]. (2) 集約、更新、プール機能に関する設計上の選択については、読者を[3,7,8]に参照します。 0.68
The Mutual Information Maximization Principle. 相互情報の最大化原理。 0.72
GCL is built upon the InfoMax principle [39], which prescribes to learn an encoder f that maximizes the mutual information or the correspondence between the graph and its representation. gclはinfomaxの原理[39]に基づいて構築されており、相互情報やグラフとその表現の対応を最大化するエンコーダfを事前に学習する。 0.74
The rationale behind GCL is that a graph representation f (G) should capture the features of the graph G so that representation can distinguish this graph from other graphs. GCLの背景にある理論的根拠は、グラフ表現 f(G) がグラフ G の特徴を捉えて、グラフを他のグラフと区別できるということである。 0.81
Specifically, the objective of GCL follows 具体的には GCL の目的は 0.84
InfoMax: max InfoMax:max 0.82
f I(G; f (G)), where G ∼ PG. f I(G; f (G)) ここで G は PG である。 0.86
(3) where I(X1; X2) denotes the mutual information between two random variables X1 and X2 [50]. (3) ここで I(X1; X2) は2つのランダム変数 X1 と X2 [50] の相互情報を表す。 0.81
Note that the encoder f (·) given by GNNs is not an injective mapping from the graph space G due to its limited expressive power [14, 15]. GNNによって与えられるエンコーダ f(·) は、その有限表現力 [14, 15] のため、グラフ空間 G からの射影写像ではないことに注意。 0.83
Specifically, for the graphs that cannot be distinguished by 1-WL test [51], GNNs will associate them with the same representations. 具体的には、1-WLテスト[51]で区別できないグラフに対して、GNNはそれらを同じ表現に関連付ける。 0.73
We leave more discussion on 1-WL test in Appendix C. In contrast to using CNNs as encoders, one can never expect GNNs to identify all the graphs in G based their representations, which introduces a unique challenge for GCL. cnnをエンコーダとして使用するのとは対照的に、gnnが表現に基づいてg内のすべてのグラフを識別することを期待することはできない。
訳抜け防止モード: エンコーダとしてCNNを使うのとは対照的に、Appendix Cにおける1-WLテストについてもっと議論する。 決して期待できない GNNはGのすべてのグラフを表現に基づいて識別する。
0.80
3 Adversarial Graph Contrastive Learning In this section, we introduce our adversarial graph contrastive learning (AD-GCL) framework and one of its instantiations based on edge perturbation. 3 Adversarial Graph Contrastive Learning この節では、敵グラフコントラスト学習(AD-GCL)フレームワークと、エッジ摂動に基づくそのインスタンス化について紹介する。 0.81
3 3 0.85
英語(論文から抽出)日本語訳スコア
f GIB: max I(f (G); Y ) − βI(G; f (G)), f GIB:max I(f (G); Y ) − βI(G; f (G)) 0.80
3.1 Theoretical Motivation and Formulation of AD-GCL The InfoMax principle in Eq 3 could be problematic in practice for general representation learning. 3.1 AD-GCLの理論的モチベーションと定式化 Eq 3におけるInfoMaxの原理は、一般的な表現学習の実践において問題となる可能性がある。 0.54
Tschannen et al have shown that for image classification, representations capturing the information that is entirely irrelevant to the image labels are also able to maximize the mutual information but such representations are definitely not useful for image classification [40]. tschannenらは、画像分類において、画像ラベルと完全に無関係な情報をキャプチャする表現は、相互情報も最大化できるが、そのような表現は画像分類には絶対に役に立たないことを示した [40]。 0.71
A similar issue can also be observed in graph representation learning, as illustrated by Fig 2: We consider a binary graph classification problem with graphs in the dataset ogbg-molbace [52]. 同様の問題はグラフ表現学習でも見ることができる。 fig 2: データセット ogbg-molbace [52] 内のグラフを用いたバイナリグラフ分類問題を考える。 0.79
Two GNN encoders with exactly the same architecture are trained to keep mutual information maximization between graph representations and the input graphs, but one of the GNN encoders in the same time is further supervised by random graph labels. 全く同じアーキテクチャを持つ2つのGNNエンコーダは、グラフ表現と入力グラフの相互情報の最大化を維持するために訓練されるが、同時にGNNエンコーダの1つがランダムグラフラベルによってさらに監督される。 0.80
Although the GNN encoder supervised by random labels still keeps one-to-one correspondance between every input graph and its representation (i.e., mutual information maximization), we may observe significant performance degeneration of this GNN encoder when evaluating it over the downstream ground-truth labels. ランダムラベルで教師されるGNNエンコーダは、全ての入力グラフとその表現(すなわち相互情報の最大化)との1対1の対応を保っているが、下流の接地トラスラベルで評価する際には、このGNNエンコーダの大幅な性能劣化を観測することができる。 0.65
More detailed experiment setup is left in Appendix G.1. より詳細な実験設定は appendix g.1 に残されている。 0.65
This observation inspires us to rethink what is a good graph representation. この観察は、よいグラフ表現とは何かを考え直すきっかけになります。 0.67
Recently, the information bottleneck has applied to learn graph representations [47, 48]. 近年,情報ボトルネックがグラフ表現 [47, 48] の学習に応用されている。 0.72
Specifically, the objective of graph information bottleneck (GIB) follows (4) where (G, Y ) ∼ PG×Y , β is a positive constant. 具体的には、グラフ情報ボトルネック(gib)の目標は、(g, y ) , pg×y , β が正の定数である(4) に従っている。 0.68
Comparing Eq 3 and Eq 4, we may observe the different requirements of InfoMax and GIB: InfoMax asks for maximizing the information from the original graph, while GIB asks for minimizing such information but simultaneously maximizing the information that is relevant to the downstream tasks. eq 3 と eq 4 を比較すると、infomax と gib の異なる要求を観察できる: infomax は元のグラフからの情報を最大化することを要求し、gib はそのような情報を最小限にし、同時に下流のタスクに関連する情報を最大化する。 0.70
As GIB asks to remove redundant information, GIB naturally avoids the issue encountered in Fig 2. GIBは冗長な情報を削除するよう要求するので、GIBは図2で遭遇した問題を自然に避ける。 0.59
Removing extra information also makes GNNs trained w.r.t. 余分な情報を取り除くことで、GNNはw.r.t.を訓練する。 0.41
GIB robust to adverserial attack and strongly transferrable [47, 48]. GIBは有害な攻撃に対して頑健であり, 強い伝達性を示した[47, 48]。 0.56
Unfortunately, GIB requires the knowledge of the class labels Y from the downstream task and thus does not apply to self-supervised training of GNNs where there are few or no labels. 残念ながら、GIBは下流のタスクからクラスラベルYの知識を必要とするため、ラベルが少ない、あるいは存在しないGNNの自己教師型トレーニングには適用できない。 0.69
Then, the question is how to learn robust and transferable GNNs in a self-supervised way. 次に、自己管理的な方法で堅牢で転送可能なGNNをどうやって学習するかが問題となる。 0.54
To address this, we will develop a GCL approach that uses adversarial learning to avoid capturing redundant information during the representation learning. そこで我々は,表現学習中に冗長な情報を捕捉するのを避けるために,敵対学習を用いたGCLアプローチを開発する。 0.76
In general, GCL methods use graph data augmentation (GDA) processes to perturb the original observed graphs and decrease the amount of information they encode. 一般に、gcl法はグラフデータ拡張(gda)プロセスを使用して、元の観測されたグラフを摂動させ、エンコードする情報量を減らす。
訳抜け防止モード: 一般に、GCL法はグラフデータ拡張(GDA)プロセスを用いる。 元の観測されたグラフを乱し エンコードした情報の量を減らします
0.86
Then, the methods apply InfoMax over perturbed graph pairs (using different GDAs) to train an encoder f to capture the remaining information. 次に、(異なるgdaを用いて)摂動グラフ対に対してinfomaxを適用してエンコーダfを訓練し、残りの情報をキャプチャする。 0.69
Definition 1 (Graph Data Augmentation (GDA)). 定義1(Graph Data Augmentation, GDA)。 0.68
For a graph G ∈ G, T (G) denotes a graph data augmentation of G, which is a distribution defined over G conditioned on G. We use t(G) ∈ G to denote a sample of T (G). グラフ g ∈ g に対して、t(g) は g のグラフデータ拡張を意味し、これは g 上で条件付けされた g 上で定義される分布である。
訳抜け防止モード: グラフ g ∈ g に対して、t(g) は g のグラフデータ拡張を表す。 g 上で条件付けられた g 上の分布であり、t(g ) ∈ g を用いる t(g)のサンプルを示す。
0.80
Specifically, given two ways of GDA T1 and T2, the objective of GCL becomes 具体的には、GDA T1 と T2 の2つの方法を考えると、GCL の目的となる。 0.59
Figure 2: Two GNNs keep the mutual information maximized between graphs and their representations. 図2: 2つのgnnは、グラフとその表現の間の相互情報を最大化します。 0.62
Simultaneously, they get supervised by ground-truth labels (green) and random labels (blue) respectively. 同時に、それらはそれぞれ接地ラベル(緑)とランダムラベル(青)によって監督される。 0.69
The curves show their testing performance on predicting ground-truth labels. 曲線は、接地ラベルの予測におけるテスト性能を示す。 0.60
GDA-GCL: max GDA-GCL:max 0.75
f I(f (t1(G)); f (t2(G))), where G ∼ PG, ti(G) ∼ Ti(G), i ∈ {1, 2}. f I(f (t1(G)); f(t2(G))) ここで、G は PG、ti(G) は Ti(G)、i ∈ {1, 2} である。 0.84
(5) In practice, GDA processes are often pre-designed based on either domain knowledge or extensive evaluation, and improper choice of GDA may severely impact the downstream performance [17, 24]. (5) 実際には、GDAプロセスはドメイン知識または広範囲な評価に基づいて事前設計されることが多く、GDAの不適切な選択は下流のパフォーマンスに深刻な影響を与えます [17, 24]。 0.72
We will review a few GDAs adopted in existing works in Sec.4. Sec.4の既存の作業で採用されているいくつかのGDAについてレビューする。 0.45
In contrast to previous predefined GDAs, our idea, inspired by GIB, is to learn the GDA process (over a parameterized family), so that the encoder f can capture the minimal information that is sufficient to identify each graph. 従来の定義済みのGDAとは対照的に、GIBにインスパイアされた私たちのアイデアは、GDAプロセス(パラメータ化されたファミリー)を学習し、エンコーダ f が各グラフを識別するのに十分な最小限の情報を取得することである。 0.64
AD-GCL: We optimize the following objective, over a GDA family T (defined below). AD-GCL: GDAファミリT(後述)に対して、以下の目的を最適化します。 0.74
I(f (G); f (t(G))), where G ∼ PG, t(G) ∼ T (G), I(f (G); f(t(G))) ここで、G は PG であり、t(G) は T(G) である。 0.87
(6) Definition 2 (Graph Data Augmentation Family). (6)定義2(グラフデータ拡張ファミリー) 0.68
Let T denote a family of different GDAs TΦ(·), where Φ is the parameter in some universe. t を異なる gda の族 tφ(·) とし、そこで φ はある宇宙におけるパラメータである。 0.61
A TΦ(·) ∈ T is a specific GDA with parameter Φ. t φ(·) ∈ t はパラメータ φ を持つ特定の gda である。 0.64
AD-GCL: min T∈T max AD-GCL:ミン T・T・マックス 0.50
f 4 0102030405060Train Epochs0.600.650.700. 750.80Test ROC-AUCInfoMax + GT LabelInfoMax + Random Label f 4 0102030405060Train Epochs0.600.650.700. 750.80Test ROC-AUCInfoMax + GT LabelInfoMax + Random Label 0.72
英語(論文から抽出)日本語訳スコア
The min-max principle in AD-GCL aims to train the encoder such that even with a very aggressive GDA (i.e., where t(G) is very different from G), the mutual information / the correspondence between the perturbed graph and the original graph can be maximized. AD-GCL の min-max 原理は、非常に攻撃的な GDA (すなわち t(G) が G と非常に異なる場合) であっても、摂動グラフと元のグラフの間の相互情報/対応を最大化できるようにエンコーダを訓練することを目的としている。 0.76
Compared with the two GDAs adopted in GDA-GCL (Eq.5), AD-GCL views the original graph G as the anchor while pushing its perturbation T (G) as far from the anchor as it can. GDA-GCL (Eq.5) で採用されている2つのGDAと比較すると、AD-GCLは元のグラフGをアンカーとみなし、その摂動T(G)を可能な限りアンカーから遠ざけている。 0.67
The automatic search over T ∈ T saves a great deal of effort evaluating different combinations of GDA as adopted in [24]. T ∈ T 上の自動探索は [24] で採用された GDA の異なる組み合わせを評価するのに多大な労力を節約する。 0.81
Relating AD-GCL to the downstream task. AD-GCLを下流タスクに関連付ける。 0.69
Next, we will theoretically characterize the property of the encoder trained via AD-GCL. 次に、AD-GCLを用いて訓練されたエンコーダの特性を理論的に特徴付ける。 0.56
The analysis here not only further illustrates the rationale of AD-GCL but helps design practical T when some knowledge of Y is accessible. ここでの解析は、AD-GCLの理性をさらに説明できるだけでなく、Y の知識が利用可能であれば実用的 T の設計に役立つ。 0.61
But note that our analysis does not make any assumption on the availability of Y . しかし、我々の分析は Y の可利用性についていかなる仮定もしない。 0.73
Note that GNNs learning graph representations is very different from CNNs learning image representations because GNNs are never injective mappings between the graph universe G and the representation space Rd, because the expressive power of GNNs is limited by the 1-WL test [14, 15, 51]. グラフ空間 G と表現空間 Rd の間の射影写像は、GNN の表現力は 1-WL テスト [14, 15, 51] によって制限されるので、GNN は CNN の学習画像表現とは全く異なる。
訳抜け防止モード: GNN はグラフ空間 G と表現空間 Rd の間の射影写像ではないので、グラフ表現を学習する CNN とは全く異なることに注意。 なぜなら、GNNの表現力は 1-WL テスト [14, 15, 51 ] によって制限されるからである。
0.80
So, we need to define a quotient space of G based on the equivalence given by the 1-WL test. したがって、G の商空間は 1-WL テストによって与えられる同値性に基づいて定義する必要がある。 0.65
Definition 3 (Graph Quotient Space). 定義3(Graph Quotient Space)。 0.75
Define the equivalence ∼= between two graphs G1 ∼= G2 if G1, G2 cannot be distinguished by the 1-WL test. G1, G2 が 1-WL テストで区別できない場合、G1, G2 と 2 つのグラフの間の同値 s = を定義する。 0.65
Define the quotient space G(cid:48) = G/ ∼=. 商空間 g(cid:48) = g/ s= を定義する。 0.67
So every element in the quotient space, i.e., G(cid:48) ∈ G(cid:48), is a representative graph from a family of graphs that cannot be distinguished by the 1-WL test. したがって、商空間のすべての元、すなわち G(cid:48) ∈ G(cid:48) は 1-WL テストで区別できないグラフの族からの代表グラフである。 0.74
Note that our definition also allows attributed graphs. 私たちの定義は属性グラフも許容する。 0.75
Definition 4 (Probability Measures in G(cid:48)). 定義4(g(cid:48)における確率測度) 0.73
Define PG(cid:48) over the space G(cid:48) such that PG(cid:48)(G(cid:48) ) = PG(G ∼= G(cid:48)) for any G(cid:48) ∈ G(cid:48). 任意の G(cid:48) ∈ G(cid:48) に対して PG(cid:48)(G(cid:48) ) = PG(G )= G(cid:48)) となるような空間 G(cid:48) 上の PG(cid:48) を定義する。 0.78
Further define PG(cid:48)×Y (G(cid:48), Y (cid:48)) = PG×Y (G ∼= G(cid:48), Y = Y (cid:48)). さらに PG(cid:48)×Y (G(cid:48), Y (cid:48)) = PG×Y (G >= G(cid:48), Y = Y (cid:48) と定義する。 0.89
Given a GDA T (·) defined over G, define a distribution on G(cid:48), T (cid:48)(G(cid:48)) = EG∼PG [T (G)|G ∼= G(cid:48)] for G(cid:48) ∈ G(cid:48). G 上で定義される GDA T (·) が与えられたとき、G(cid:48) ∈ G(cid:48) に対して T(cid:48)(G(cid:48)) = EG PG [T (G)|G ) = G(cid:48)] 上の分布を定義する。 0.86
Now, we provide our theoretical results and give their implication. さて、我々は理論的な結果を提示し、その示唆を与えます。 0.55
The proof is in the Appendix B. Theorem 1. 証明は Appendix B. Theorem 1 にある。 0.73
Suppose the encoder f is implemented by a GNN as powerful as the 1-WL test. エンコーダfを1-WLテストと同じくらい強力なGNNで実装する。 0.66
Then, the optimal solution (f∗, T ∗) to AD-GCL satisfies, letting T (cid:48)∗(G(cid:48)) = EG∼PG [T ∗(G)|G ∼= G(cid:48)], 1. そして、最適解 (f∗, T ∗) と AD-GCL は満足し、T (cid:48)∗(G(cid:48)) = EG PG [T ∗(G)|G > = G(cid:48)], 1 を満足する。 0.87
I(f∗(t∗(G)); G| Y ) ≤ minT∈T I(t(cid:48)(G(cid:48 )); G(cid:48)) − I(t(cid:48)∗(G(cid:48)); Y ), where t(cid:48)(G(cid:48)) ∼ T (cid:48)(G(cid:48)), I(f∗(t∗(G)); G| Y ) ≤ minTåT I(t(cid:48)(G(cid:48 )); G(cid:48)) − I(t(cid:48)∗(G(cid:48)); Y ) ここで t(cid:48)(G(cid:48)) は T (cid:48)(G(cid:48)) である。 0.95
t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)), (G, Y ) ∼ PG×Y and (G(cid:48), Y ) ∼ PG(cid:48)×Y. t(cid:48)∗(G(cid:48)) ^ T (cid:48)∗(G(cid:48)), (G, Y) ^ PG×Y, (G(cid:48), Y) ^ ^ T (cid:48)×Y) である。 0.91
2. I(f∗(G); Y ) ≥ I(f∗(t(cid:48)∗(G(cid:48))); Y ) = I(t(cid:48)∗(G(cid:48)); Y ), where t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)), (G, Y ) ∼ PG×Y 2. I(f∗(G); Y ) ≥ I(f∗(t(cid:48)∗(G(cid:48))); Y ) = I(t(cid:48)∗(G(cid:48)); Y ) ここで t(cid:48)∗(G(cid:48)) は T (cid:48)∗(G(cid:48)), (G, Y ) は PG×Y である。 0.86
and (G(cid:48), Y ) ∼ PG(cid:48)×Y. および (G(cid:48), Y) > PG(cid:48)×Y。 0.90
The statement 1 in Theorem 1 guarantees a upper bound of the information that the representations capture but is irrelevant to the downstream task, which matches our aim. Theorem 1のステートメント1は、表現がキャプチャされるが、下流タスクとは無関係である情報の上限を保証する。
訳抜け防止モード: Theorem 1のステートメント1は、表現がキャプチャする情報の上限を保証する 下流の任務とは無関係です 目的と一致します
0.65
This bound has a form very relevant to the GIB principle (Eq.4 when β = 1), since minT∈T I(t(cid:48)(G(cid:48 )); G(cid:48)) − I(t(cid:48)∗(G(cid:48)); Y ) ≥ minf [I(f (G); G) − I(f (G); Y )], where f is a GNN encoder as powerful as the 1-WL test. この境界は GIB の原理(Eq.4 if β = 1) と非常に関係のある形式を持つ(ただし、minTåT I(t(cid:48)(G(cid:48 )); G(cid:48)) − I(t(cid:48)∗(G(cid:48)); Y ) ≥ minf [I(f (G); G) − I(f (G); Y )] であるため、f は 1-WL テストと同じくらい強力な GNN エンコーダである。 0.90
But note that this inequality also implies that the encoder given by AD-GCL may be worse than the optimal encoder given by GIB (β = 1). しかし、この不等式は、AD-GCL で与えられるエンコーダが GIB (β = 1) で与えられる最適エンコーダよりも悪いかもしれないことを意味する。 0.69
This makes sense as GIB has the access to the downstream task Y . GIBは下流のタスク Y にアクセスするので、これは理にかなっている。 0.60
The statement 2 in Theorem 1 guarantees a lower bound of the mutual information between the learnt representations and the labels of the downstream task. Theorem 1の文2は、学習した表現と下流タスクのラベルとの相互情報の低い境界を保証する。 0.64
As long as the GDA family T has a good control, I(t(cid:48)∗(G(cid:48)); Y ) ≥ minT∈T I(t(cid:48)(G(cid:48 )); Y ) and I(f∗(G); Y ) thus cannot be too small. GDA族 T がよく制御できる限り、I(t(cid:48)∗(G(cid:48)); Y ) ≥ minT⋅T I(t(cid:48)(G(cid:48 )); Y ) と I(f∗(G); Y) は小さすぎることができない。 0.78
This implies that it is better to regularize when learning over T . これは、T を学習する際に規則化するのがよいことを意味する。 0.58
In our instantiation, based on edge-dropping augmentation (Sec. 私たちのインスタンス化では、エッジドロップ拡張(sec)に基づいています。 0.37
3.2), we regularize the ratio of dropped edges per graph. 3.2) グラフ当たりの落差の比率を定式化する。 0.71
Instantiation of AD-GCL via Learnable Edge Perturbation 学習可能なエッジ摂動によるAD-GCLの確立 0.55
3.2 We now introduce a practical instantiation of the AD-GCL principle (Eq. 3.2 ad-gcl 原則(eq)の実用的なインスタンス化について紹介する。 0.48
6) based on learnable edge-dropping augmentations as illustrated in Fig 1. 6) 図1に示すように, 学習可能なエッジドロップ拡張に基づく。 0.69
(See Appendix D for a summary of AD-GCL in its algorithmic form.) (AD-GCLのアルゴリズム形式での要約については、Appendix Dを参照)。 0.72
The objective of AD-GCL has two folds: (1) Optimize the encoder f to maximize the mutual information between the representations of the original graph G and its augmented graph t(G); (2) Optimize the GDA T (G) where t(G) is sampled to minimize such a mutual information. AD-GCLの目的は、(1)エンコーダfを最適化し、原グラフGとその拡張グラフt(G)の表現間の相互情報を最大化すること、(2)この相互情報を最小化するためにt(G)をサンプリングするGDA T(G)を最適化することである。 0.87
We always set the encoder as a GNN fΘ with learnable parameters Θ and next we focus on the GDA, TΦ(G) that has learnable parameters Φ. Learnable Edge Dropping GDA model TΦ(·). 我々は常に学習可能なパラメータ θ を持つ gnn fθ としてエンコーダをセットし、次に学習可能なパラメータ φ を持つ gda, tφ(g) に焦点を当てる。
訳抜け防止モード: 私たちは常にエンコーダを学習可能なパラメータを持つGNN f として設定します。 次に、GDA、つまり、(G)に焦点を当てます。 Learnable Edge Dropping GDA model T' ( · )。
0.78
Edge dropping is the operation of deleting some edges in a graph. エッジドロップは、グラフ内のエッジを削除する操作である。 0.77
As a proof of concept, we adopt edge dropping to formulate the GDA family T . 概念の証明として、gda ファミリー t を定式化するために edge drop を採用する。 0.59
Other types of GDAs such as node dropping, edge adding and feature masking can also be paired with our AD-GCL principle. ノードドロップ、エッジの追加、フィーチャーマスキングといった他のタイプのGDAも、AD-GCLの原則と組み合わせることができる。 0.68
Interestingly, in our experiments, edge-dropping augmentation 興味深いことに、私たちの実験ではエッジドロップの増強は 0.41
5 5 0.85
英語(論文から抽出)日本語訳スコア
optimized by AD-GCL has already achieved much better performance than any pre-defined random GDAs even carefully selected via extensive evaluation [24] (See Sec.5). AD-GCLによって最適化されたGDAは、事前定義されたランダムなGDAよりもはるかに優れた性能をすでに達成している。 0.57
Another reason that supports edge dropping is due to our Theorem 1 statement 2, which shows that good GDAs should keep some information related to the downstream tasks. エッジドロップをサポートするもう1つの理由は、定理 1 の文 2 によるものであり、良い gda は下流タスクに関連する情報を保持するべきであることを示している。 0.58
Many GRL downstream tasks such as molecule classification only depends on the structural fingerprints that can be represented as subgraphs of the original graph [53]. 分子分類のような多くのGRL下流タスクは、元のグラフ[53]のサブグラフとして表現できる構造指紋にのみ依存する。 0.79
Dropping a few edges may not change those subgraph structures and thus keeps the information sufficient to the downstream classification. いくつかのエッジをドロップしても、それらのサブグラフ構造は変更されないため、ダウンストリームの分類に十分な情報を保持することができる。
訳抜け防止モード: いくつかのエッジをドロップする サブグラフ構造を変更できないため、下流の分類に十分な情報を保持することができます。
0.63
But note that this reasoning does not mean that we leverage domain knowledge to design GDA, as the family T is still broad and the specific GDA still needs to be optimized. しかし、この推論は、ファミリーTがまだ広く、特定のGDAを最適化する必要があるため、GDAの設計にドメイン知識を活用するという意味ではないことに注意してください。 0.63
Moreover, experiments show that our instantiation also works extremely well on social network classification and molecule property regression, where the evidence of subgraph fingerprints may not exist any more. さらに, 実験により, このインスタンス化はソーシャルネットワークの分類や分子特性の回帰にも非常に有効であり, サブグラフ指紋の証拠は存在し得ないことを示した。 0.71
Parameterizing TΦ(·). tφ(·)のパラメータ化。 0.66
For each G = (V, E), we set TΦ(G), T ∈ T as a random graph model [54, 55] conditioning on G. Each sample t(G) ∼ TΦ(G) is a graph that shares the same node set with G while the edge set of t(G) is only a subset of E. Each edge e ∈ E will be associated with a random variable pe ∼ Bernoulli(ωe), where e is in t(G) if pe = 1 and is dropped otherwise. 各 G = (V, E) に対して、G 上の無作為グラフモデル [54, 55] の条件として T =(G) と T ∈ T をセットする。各サンプル t(G) は G と同一のノード集合を共有するグラフであり、t(G) の辺集合は E の部分集合である。
訳抜け防止モード: 各 G = ( V, E ) に対して、我々は T = ( G ) {\displaystyle T\ (G)} を設定する。 T ∈ T を G 上のランダムグラフモデル [54, 55 ] の条件付けとし、各サンプル t(G ) は G と同一のノード集合を共有するグラフであり、一方 t(G ) のエッジ集合は E の部分集合である。 e が t(G ) 内にあるとき、pe = 1 で、そうでなければ落とされる。
0.80
We parameterize the Bernoulli weights ωe by leveraging another GNN, i.e., the augmenter, to run on G according to Eq 1 of K layers, get the final-layer node representations {h(K) 我々はベルヌーイ重み ωe を別の GNN、すなわち増分器を利用してパラメータ化し、K 層の Eq 1 に従って G 上で実行し、最終層ノード表現 {h(K) を得る。 0.76
|v ∈ V } and set | v ∈ V } = GNN-augmenter(G) |v ∈ V } および集合 |v ∈ V } = GNN-augmenter(G) 0.98
v (7) ωe = MLP([h(K) v (7) ωe = MLP([h(K)) 0.87
u ; h(K) z ]), where e = (u, z) and{h(K) u; h(K) z ここで e = (u, z) と{h(k) である。 0.81
v To train T (G) in an end-to-end fashion, we relax the discrete pe to be a continuous variable in [0, 1] and utilize the Gumbel-Max reparametrization trick [56, 57]. v エンドツーエンドでT(G)を訓練するために、離散ペを[0, 1]の連続変数として緩和し、Gumbel-Max再パラメータ化トリック[56, 57]を利用する。 0.78
Specifically, pe = Sigmoid((log δ − log(1 − δ) + ωe)/τ ), where δ ∼ Uniform(0,1). 具体的には、 Pe = Sigmoid((log δ − log(1 − δ) + ωe)/τ ) である。
訳抜け防止モード: 特に、pe = sigmoid((log δ − log(1 − δ ) + ωe)/τ )。 ここで δ はuniform(0,1 ) である。
0.81
As temperature hyper-parameter τ → 0, pe gets closer to being binary. 温度超パラメータ τ → 0 のとき、ペは二項に近づく。 0.73
Moreover, the gradients ∂pe ∂ωe Regularizing TΦ(·). さらに、勾配 ∂pe ∂ωe 正則化 T (·) が成り立つ。 0.55
As shown in Theorem 1, a reasonable GDA should keep a certain amount of information related to the downstream tasks (statement 1). Theorem 1に示すように、合理的なGDAは、下流のタスクに関連する一定の量の情報を保持すべきである(ステートメント1)。 0.68
Hence, we expect the GDAs in the edge dropping family T not to perform very aggressive perturbation. したがって、エッジダウンファミリーTのGDAは、非常にアグレッシブな摂動を行わないことを期待している。 0.58
Therefore, we regularize the ratio of edges being dropped per graph by enforcing the following constraint: For a graph G and its e∈E ωe/|E| to the objective, where ωe is defined in Eq 7 indicates したがって、グラフ G とその e∂E ωe/|E| に対して、Eq 7 において ωe が定義される。
訳抜け防止モード: したがって、グラフ G に対して、次の制約を課すことにより、グラフ毎にドロップされるエッジの比率を正規化する。 ωe は Eq 7 で定義されている。
0.75
augmented graph t(G), we add(cid:80) グラフ t(G) を追加します(cid:80) 0.82
are smooth and well defined. 滑らかでよく定義されています 0.53
the probability that e gets dropped. e が減少する確率。 0.55
Putting everything together, the final objective is as follows. 全てをまとめると、最終的な目的は次のようになる。 0.67
min Φ max Θ ミン Φ マックス Θ 0.72
I(fΘ(G); fΘ(t(G))) + λregEG I(f'(G); f'(t(G))) + λregEG 0.80
(cid:2)(cid:88) (cid:2)(cid:88) 0.75
e∈E ωe/|E|(cid:3), where G ∼ PG, t(G) ∼ TΦ(G). e.e.e. ωe/|E|(cid:3) ここで G は PG, t(G) は t(G) である。 0.48
(8) Note Φ corresponds to the learnable parameters of the augmenter GNN and MLP used to derive the ωe’s and Θ corresponds to the learnable parameters of the GNN f. Estimating the objective in Eq 8. (8) 注: t は ωe を導出するために用いられる拡張子 GNN と MLP の学習可能なパラメータに対応し、 t は GNN f の学習可能なパラメータに対応している。
訳抜け防止モード: (8) 注 は拡張GNNの学習可能なパラメータに対応する。 MLP は ωe を導出するのに使われます は GNN f の学習可能なパラメータに対応する。 Eq 8 で目的を推定する。
0.82
In our implementation, the second (regularization) term is easy to estimate empirically. 我々の実装では、第2の(正規化)項は経験的評価が容易である。 0.59
For the first (mutual information) term, we adopt InfoNCE as the estimator [58–60], which is known to be a lower bound of the mutual information and is frequently used for contrastive learning [40, 58, 61]. 最初の(相互情報)項では、InfoNCE を推定子 [58-60] として採用し、これは相互情報の下位境界として知られ、コントラスト学習 [40, 58, 61] に頻繁に使用される。 0.84
Specfically, during the training, given a minibatch of m graphs {Gi}m i=1, let zi,1 = g(fΘ(Gi)) and zi,2 = g(fΘ(t(Gi))) where g(·) is the projection head implemented by a 2-layer MLP as suggested in [61]. 特筆すべきは、トレーニング中に m 個のグラフ {Gi}m i=1 のミニバッチを与えられたとき、zi,1 = g(f)(Gi)) と zi,2 = g(f)(t(Gi)) とすると、g(·) は [61] に示唆される2層 MLP によって実装される射影ヘッドである。
訳抜け防止モード: 特筆すべきは、訓練中に m 個のグラフ { Gi}m i=1, zi,1 = g(f)(Gi ) ) と zi,2 = g(f)(t(Gi ) ) とする。 g ( · ) は [ 61 ] で示される 2 層 MLP で実装された投影ヘッドである。
0.85
With sim(·,·) denoting cosine similarity, we estimate the mutual information for the mini-batch as follows. cosine の類似性を示す sim(·,·) を用いて、ミニバッチの相互情報を次のように推定する。 0.76
I(fΘ(G); fΘ(t(G))) → ˆI = I(f)(G; f)(t(G))) → >I = 0.87
1 m exp(sim(zi,1, zi,2)) 1m exp(sim(zi,1,zi,2) 0.85
i(cid:48)=1,i(cid:48)(cid:54)=i exp(sim(zi,1, zi(cid:48),2)) i(cid:48)=1,i(cid:48)(cid:54)=i exp(sim(zi,1,zi(cid: 48),2) 0.84
(9) 4 Related Work GNNs for GRL is a broad field and gets a high-level review in the Sec. (9) 4 GRL の関連作業 GNN は広い分野であり、Sec.NET Framework の高レベルなレビューを受けています。 0.72
1. Here, we focus on the topics that are most relevant to graph contrastive learning (GCL). 1. 本稿では,グラフコントラスト学習(GCL)に最も関係のあるトピックに焦点を当てる。 0.81
Contrastive learning (CL) [39,58,59,62–64] was initially proposed to train CNNs for image representation learning and has recently achieved great success [61,65]. コントラスト学習 (CL) [39,58,59,62–64] は、画像表現学習のためにCNNを訓練するために最初に提案され、最近(61,65)大成功を収めた。 0.54
GCL applies the idea of CL on GNNs. GCLはCLの考え方をGNNに適用する。 0.76
In contrast to the case of CNNs, GCL trained using GNNs posts us new fundamental challenges. CNNとは対照的に、GCLはGNNを使ってトレーニングした。 0.56
An image often has multiple natural views, say by imposing different color filters and so on. イメージは、例えば異なるカラーフィルタを付与するなど、複数の自然なビューを持つことが多い。 0.77
Hence, different views of an image give natural contrastive pairs for CL to train CNNs. したがって、画像の異なるビューは、CLがCNNを訓練する自然なコントラストペアを与える。 0.68
However, graphs are m(cid:88) しかし、グラフは、 m(cid:88) 0.84
i=1 (cid:80)m i=1 (cid:80)m 0.71
log 6 ログ 6 0.78
英語(論文から抽出)日本語訳スコア
Dataset F-GIN データセットF-GIN 0.50
s RU-GIN [70] RU-GIN [70] 0.97
e n i l e s a B e n i l e s a B 0.85
InfoGraph [18] GraphCL [24] S NAD-GCL-FIX B NAD-GCL-OPT A InfoGraph [18] GraphCL [24] S NAD-GCL-FIX B NAD-GCL-OPT A 0.75
- s AD-GCL-FIX r u AD-GCL-OPT O - s AD-GCL-FIX r u AD-GCL-OPT O 0.70
NCI1 78.27 ± 1.35 62.98 ± 0.10 68.13 ± 0.59 68.54 ± 0.55 69.23 ± 0.60 69.30 ± 0.32 69.67 ± 0.51(cid:63) 69.67 ± 0.51(cid:63) NCI1 78.27 ± 1.35 62.98 ± 0.10 68.13 ± 0.59 68.54 ± 0.55 69.23 ± 0.60 69.30 ± 0.32 69.67 ± 0.51(cid:63) 69.67 ± 0.51(cid:63) 0.66
PROTEINS 72.39 ± 2.76 69.03 ± 0.33 72.57 ± 0.65 72.86 ± 1.01 72.81 ± 0.71 73.18 ± 0.71 73.59 ± 0.65 73.81 ± 0.46(cid:63) PROTEINS 72.39 ± 2.76 69.03 ± 0.33 72.57 ± 0.65 72.86 ± 1.01 72.81 ± 0.71 73.18 ± 0.71 73.59 ± 0.65 73.81 ± 0.46(cid:63) 0.54
MUTAG 90.41 ± 4.61 87.61 ± 0.39 87.71 ± 1.77 88.29 ± 1.31 88.58 ± 1.58 89.05 ± 1.06 89.25 ± 1.45 89.70 ± 1.03 MUTAG 90.41 ± 4.61 87.61 ± 0.39 87.71 ± 1.77 88.29 ± 1.31 88.58 ± 1.58 89.05 ± 1.06 89.25 ± 1.45 89.70 ± 1.03 0.53
DD 74.87 ± 3.56 74.22 ± 0.30 75.23 ± 0.39 74.70 ± 0.70 74.55 ± 0.55 74.55 ± 0.55 74.49 ± 0.52 75.10 ± 0.39 DD 74.87 ± 3.56 74.22 ± 0.30 75.23 ± 0.39 74.70 ± 0.70 74.55 ± 0.55 74.55 ± 0.55 74.49 ± 0.52 75.10 ± 0.39 0.68
COLLAB 74.82 ± 0.92 63.08 ± 0.10 70.35 ± 0.64 71.26 ± 0.55 71.56 ± 0.58 72.04 ± 0.67 73.32 ± 0.61(cid:63) 73.32 ± 0.61(cid:63) COLLAB 74.82 ± 0.92 63.08 ± 0.10 70.35 ± 0.64 71.26 ± 0.55 71.56 ± 0.58 72.04 ± 0.67 73.32 ± 0.61(cid:63) 73.32 ± 0.61(cid:63) 0.55
RDT-B 86.79 ± 2.04 58.97 ± 0.13 78.79 ± 2.14 82.63 ± 0.99 83.41 ± 0.66 83.74 ± 0.76 85.52 ± 0.79(cid:63) 85.52 ± 0.79(cid:63) RDT-B 86.79 ± 2.04 58.97 ± 0.13 78.79 ± 2.14 82.63 ± 0.99 83.41 ± 0.66 83.74 ± 0.76 85.52 ± 0.79(cid:63) 85.52 ± 0.79(cid:63) 0.57
RDT-M5K 53.28 ± 3.17 27.52 ± 0.61 51.11 ± 0.55 53.05 ± 0.40 52.72 ± 0.71 53.43 ± 0.26 53.00 ± 0.82 54.93 ± 0.43(cid:63) RDT-M5K 53.28 ± 3.17 27.52 ± 0.61 51.11 ± 0.55 53.05 ± 0.40 52.72 ± 0.71 53.43 ± 0.26 53.00 ± 0.82 54.93 ± 0.43(cid:63) 0.51
IMDB-B 71.83 ± 1.93 51.86 ± 0.33 71.11 ± 0.88 70.80 ± 0.77 70.94 ± 0.77 71.94 ± 0.59 71.57 ± 1.01 72.33 ± 0.56(cid:63) IMDB-B 71.83 ± 1.93 51.86 ± 0.33 71.11 ± 0.88 70.80 ± 0.77 70.94 ± 0.77 71.94 ± 0.59 71.57 ± 1.01 72.33 ± 0.56(cid:63) 0.52
IMDB-M 48.46 ± 2.31 32.81 ± 0.57 48.66 ± 0.67 48.49 ± 0.63 48.33 ± 0.47 49.01 ± 0.93 49.04 ± 0.53 49.89 ± 0.66(cid:63) IMDB-M 48.46 ± 2.31 32.81 ± 0.57 48.66 ± 0.67 48.49 ± 0.63 48.33 ± 0.47 49.01 ± 0.93 49.04 ± 0.53 49.89 ± 0.66(cid:63) 0.52
Task Dataset Metric F-GIN Task Dataset Metric F-GIN 0.84
Regression (Downstream Classifier - Linear Regression + L2) molesol Regression (Downstream Classifier - Linear Regression + L2) molesol 0.92
molfreesolv mol‐freesolv 0.55
mollipo Classification (Downstream Classifier - Logistic Regression + L2) モリポ 分類(Downstream Classifier - Logistic Regression + L2) 0.64
molbace molbbbp molbace molbbbp 0.85
molclintox molclintox 0.85
moltox21 molsider moltox21 molsider 0.82
ROC-AUC % (shared) (↑) ROC-AUC %(シェード) 0.68
RMSE (shared) (↓) RMSE(Shared) 0.45
ZINC-10K MAE (↓) ZINC-10K MAE 0.71
e n i l e s a B e n i l e s a B 0.85
InfoGraph [18] GraphCL [24] InfoGraph [18] GraphCL [24] 0.85
s RU-GIN [70] RU-GIN [70] 0.97
- S NAD-GCL-FIX B NAD-GCL-OPT A - SNAD-GCL-FIX BNAD-GCL-OPT A 0.69
1.173 ± 0.057 1.706 ± 0.180 1.344 ± 0.178 1.272 ± 0.089 1.392 ± 0.065 1.242 ± 0.096 1.217 ± 0.087 1.136 ± 0.050(cid:63) 1.173 ± 0.057 1.706 ± 0.180 1.344 ± 0.178 1.272 ± 0.089 1.392 ± 0.065 1.242 ± 0.096 1.217 ± 0.087 1.136 ± 0.050(cid:63) 0.53
57.60 ± 1.40 62.29 ± 1.12 60.54 ± 0.90 61.76 ± 1.11 60.41 ± 1.48 61.14 ± 1.43 63.19 ± 0.95 63.19 ± 0.95 Table 1: Unsupervised learning performance for (TOP) biochemical and social network classification in TU datasets [71] (Averaged accuracy ± std. 57.60 ± 1.40 62.29 ± 1.12 60.54 ± 0.90 61.76 ± 1.11 60.41 ± 1.48 61.14 ± 1.43 63.19 ± 0.95 表 1: tuデータセット[71]における(トップ)生化学および社会ネットワーク分類の教師なし学習性能(平均精度± std)。 0.71
over 10 runs) and (BOTTOM) chemical molecules property prediction in OGB datasets [52] (mean ± std. 10ラン以上) および (BOTTOM) 化学分子は, OGB データセット [52] (平均± std。 0.64
over 10 runs). Bold/Bold(cid:63) indicats our methods outperform baselines with ≥ 0.5/≥ 2 std respectively. 10回以上)。 Bold/Bold (cid:63) はそれぞれ 0.5/≥ 2 std のベースラインを上回ります。 0.57
Fully supervised (F-GIN) results are shown only for placing GRL methods in perspective. 完全な教師付き (F-GIN) の結果はGRL法の観点からのみ示される。 0.69
Ablation-study (AB-S) results do not count as baselines. Ablation-Study (AB-S) の結果はベースラインとはみなさない。 0.66
2.755 ± 0.349 7.526 ± 2.119 10.005 ± 4.819 7.679 ± 2.748 5.840 ± 0.877 5.840 ± 0.877 5.150 ± 0.624(cid:63) 4.145 ± 0.369(cid:63) 2.755 ± 0.349 7.526 ± 2.119 10.005 ± 4.819 7.679 ± 2.748 5.840 ± 0.877 5.840 ± 0.877 5.150 ± 0.624(cid:63) 4.145 ± 0.369(cid:63) 0.54
0.254 ± 0.005 0.809 ± 0.022 0.890 ± 0.017 0.627 ± 0.013 0.609 ± 0.010 0.609 ± 0.010 0.578 ± 0.012(cid:63) 0.544 ± 0.004(cid:63) 0.254 ± 0.005 0.809 ± 0.022 0.890 ± 0.017 0.627 ± 0.013 0.609 ± 0.010 0.609 ± 0.010 0.578 ± 0.012(cid:63) 0.544 ± 0.004(cid:63) 0.54
0.757 ± 0.018 1.075 ± 0.022 1.005 ± 0.023 0.910 ± 0.016 0.952 ± 0.024 0.897 ± 0.022 0.842 ± 0.028(cid:63) 0.812 ± 0.020(cid:63) 0.757 ± 0.018 1.075 ± 0.022 1.005 ± 0.023 0.910 ± 0.016 0.952 ± 0.024 0.897 ± 0.022 0.842 ± 0.028(cid:63) 0.812 ± 0.020(cid:63) 0.54
88.14 ± 2.51 72.29 ± 4.15 64.50 ± 5.32 74.92 ± 4.42 73.32 ± 3.66 74.40 ± 4.92 80.77 ± 3.92 80.77 ± 3.92 88.14 ± 2.51 72.29 ± 4.15 64.50 ± 5.32 74.92 ± 4.42 73.32 ± 3.66 74.40 ± 4.92 80.77 ± 3.92 80.77 ± 3.92 0.52
68.17 ± 1.48 64.48 ± 2.46 66.33 ± 2.79 68.22 ± 1.89 66.12 ± 1.80 67.70 ± 1.78 68.24 ± 1.47 69.54 ± 1.92 68.17 ± 1.48 64.48 ± 2.46 66.33 ± 2.79 68.22 ± 1.89 66.12 ± 1.80 67.70 ± 1.78 68.24 ± 1.47 69.54 ± 1.92 0.52
74.91 ± 0.51 71.53 ± 0.74 69.74 ± 0.57 72.40 ± 1.01 71.65 ± 0.94 71.65 ± 0.94 71.42 ± 0.73 72.92 ± 0.86 74.91 ± 0.51 71.53 ± 0.74 69.74 ± 0.57 72.40 ± 1.01 71.65 ± 0.94 71.65 ± 0.94 71.42 ± 0.73 72.92 ± 0.86 0.52
72.97 ± 4.00 75.07 ± 2.23 74.74 ± 3.64 74.32 ± 2.70 73.60 ± 2.73 73.69 ± 3.67 76.37 ± 2.03 77.27 ± 2.56 72.97 ± 4.00 75.07 ± 2.23 74.74 ± 3.64 74.32 ± 2.70 73.60 ± 2.73 73.69 ± 3.67 76.37 ± 2.03 77.27 ± 2.56 0.52
s AD-GCL-FIX r u AD-GCL-OPT O s AD-GCL-FIX r u AD-GCL-OPT O 0.55
more abstract and the irregularity of graph structures typically provides crucial information. より抽象的で不規則なグラフ構造は 一般的に重要な情報を提供します 0.68
Thus, designing contrastive pairs for GCL must play with irregular graph structures and thus becomes more challenging. したがって、GCL の対照的なペアを設計するには不規則なグラフ構造を扱わなければならない。 0.66
Some works use different parts of a graph to build contrastive pairs, including nodes v.s. グラフの異なる部分を使って、ノードv.s.を含むコントラストペアを構築する作品もある。 0.64
whole graphs [18, 66], nodes v.s. 全グラフ [18,66] ノード v.s. 0.82
nodes [67], nodes v.s. ノード [67]、ノード v.s. 0.84
subgraphs [17, 68]. サブグラフ [17, 68] 0.70
Other works adopt graph data augmentations (GDA) such as edge perturbation [31] to generate contrastive pairs. 他の作品では、エッジ摂動[31]のようなグラフデータ拡張(gda)を採用してコントラストペアを生成する。 0.67
Recently. GraphCL [24] gives an extensive study on different combinations of GDAs including node dropping, edge perturbation, subgraph sampling and feature masking. 最近。 GraphCL[24]は,ノードドロップ,エッジ摂動,サブグラフサンプリング,特徴マスキングなど,GDAのさまざまな組み合わせについて広範な研究を行っている。
訳抜け防止モード: 最近。 GraphCL [24 ] はノードドロップを含む GDA のさまざまな組み合わせについて広範な研究を行っている。 エッジ摂動 サブグラフサンプリング 特徴マスキング
0.73
Extensive evaluation is required to determine good combinations. 良い組み合わせを決定するには広範な評価が必要です。 0.56
MVGRL [25] and GCA [30] leverage the domain knowledge of network science and adopt network centrality to perform GDAs. MVGRL [25] と GCA [30] は、ネットワーク科学のドメイン知識を活用し、ネットワーク中心性を採用し、GDAを実行する。 0.71
Note that none of the above methods consider optimizing augmentations. 上記の方法のいずれも拡張の最適化を考慮していない点に注意。 0.55
Improperly designed augmentations can inject too much or too little information that risks learning sub-optimal GNNs. 不適切な設計の強化は、最適でないGNNを学習するリスクを負う、過大または少なすぎる情報を注入することができる。 0.46
In contrast, our principle AD-GCL provides theoretical guiding principles to optimize augmentations. 対照的に、我々の原理AD-GCLは拡張を最適化するための理論的な指針となる。 0.50
Tian et al [69] has recently proposed the InfoMin principle that shares some ideas with AD-GCL but there are several fundamental differences. Tian et al [69]は最近、AD-GCLといくつかのアイデアを共有するInfoMin原則を提案したが、いくつかの根本的な違いがある。 0.56
Theoretically, InfoMin needs the downstream tasks to supervise the augmentation. 理論的には、InfoMinは拡張を監督するために下流のタスクが必要です。 0.46
Rephrased in our notation, the optimal augmentation TIM (G) given by InfoMin (called the sweet spot in [69]) needs to satisfy I(tIM (G); Y ) = I(G; Y ) and I(tIM (G); G|Y ) = 0, tIM (G) ∼ TIM (G), neither of which are possible without the downstreamtask knowledge. 我々の表記で言い換えると、InfoMin ([69] のスイートスポットと呼ばれる) によって与えられる最適増強 TIM (G) は I(tIM (G); Y ) = I(G; Y ) および I(tIM (G); G|Y ) = 0, tIM (G) > TIM (G) を満たす必要がある。 0.69
Instead, our Theorem 1 provides more reasonable arguments and creatively suggests using regularization to control the tradeoff. その代わり、私たちのTheorem 1はより合理的な議論を提供します。 0.53
Empirically, InfoMin is applied to CNNs while AD-GCL is applied to GNNs. 経験的に、InfoMinはCNNに適用され、AD-GCLはGNNに適用される。 0.58
AD-GCL needs to handle the above challenges due to irregular graph structures and the limited expressive power of GNNs [14, 15], which InfoMin does not consider. AD-GCLは、不規則なグラフ構造とInfoMinが考慮していないGNN[14, 15]の限られた表現力のために、上記の課題に対処する必要がある。 0.62
5 Experiments and Analysis This section is devoted to the empirical evaluation of the proposed instantiation of our AD-GCL principle. 5 実験と分析 この節では, 提案したAD-GCL 原理のインスタンス化の実証評価について述べる。 0.76
Our initial focus is on unsupervised learning which is followed by analysis of the effects of regularization. 最初の焦点は教師なし学習であり、次に正規化の効果の分析を行う。 0.61
We further apply AD-GCL to transfer and semi-supervised learning. さらに、AD-GCLを半教師あり学習に適用する。 0.49
Summary of datasets and training details for specific experiments are provided in Appendix E and G respectively. 特定の実験のためのデータセットとトレーニングの詳細は、それぞれAppendix EとGで提供されている。 0.65
5.1 Unsupervised Learning In this setting, an encoder (specifically GIN [70]) is trained with different self-supervised methods to learn graph representations, which are then evaluated by feeding these representations to make prediction for the downstream tasks. 5.1 教師なし学習 この設定では、エンコーダ(特にGIN [70])がグラフ表現を学習するために異なる自己教師付きメソッドで訓練され、これらの表現をフィードして下流タスクの予測を行う。 0.71
We use datasets from Open Graph Benchmark (OGB) [52], TU Dataset [71] and ZINC [72] for graph-level property classification and regression. Open Graph Benchmark (OGB) [52], TU Dataset [71], ZINC [72] のデータセットをグラフレベルのプロパティ分類と回帰に使用しています。 0.90
More details regarding the experimental setting are provided in the Appendix G. 実験設定に関する詳細はAppendix Gに記載されている。 0.83
7 7 0.85
英語(論文から抽出)日本語訳スコア
We consider two types of AD-GCL, where one is with a fixed regularization weight λreg = 5 (Eq.8), termed AD-GCL-FIX, and another is with λreg tuned over the validation set among {0.1, 0.3, 0.5, 1.0, 2.0, 5.0, 10.0}, termed AD-GCL-OPT. 固定正則化重み λreg = 5 (Eq.8), AD-GCL-FIX, AD-GCL-OPT, {0.1, 0.3, 0.5, 1.0, 2.0, 5.0, 10.0} の検証集合についてλreg をチューニングする。 0.79
AD-GCL-FIX assumes any information from the downstream task as unavailable while AD-GCL-OPT assumes the augmentation search space has some weak information from the downstream task. AD-GCL-FIXはダウンストリームタスクからの情報を利用できないと仮定し、AD-GCL-OPTはアップストリーム検索空間がダウンストリームタスクからの弱い情報を持っていると仮定する。 0.56
A full range of analysis on how λreg impacts AD-GCL will be investigated in Sec. λreg が AD-GCL にどのように影響するかを Sec.NET で検討する。 0.54
5.2. We compare AD-GCL with three unsupervised/selfsup ervised learning baselines for graph-level tasks, which include randomly initialized untrained GIN (RU-GIN) [70], InfoGraph [18] and GraphCL [24]. 5.2. 我々はAD-GCLと、ランダムに初期化した未学習GIN(RU-GIN) [70]、InfoGraph [18]、GraphCL [24]を含む3つのグラフレベルタスクの教師なし学習ベースラインを比較した。 0.67
Previous works [18, 24] show that they generally outperform graph kernels [73–75] and network embedding methods [33, 34, 76, 77]. 先行研究 [18, 24] はグラフカーネル [73–75] とネットワーク埋め込み法 [33, 34, 76, 77] を概ね上回っていることを示している。 0.78
We also adopt GCL with GDA based on non-adversarial edge dropping (NAD-GCL) for ablation study. アブレーション研究には非逆行エッジドロップ(NAD-GCL)に基づくGCLも採用した。 0.72
NAD-GCL drops the edges of a graph uniformly at random. NAD-GCLはグラフのエッジをランダムに一様に落とす。 0.74
We consider NAD-GCL-FIX and NAD-GCL-OPT with different edge drop ratios. NAD-GCL-FIXとNAD-GCL-OPTはエッジドロップ比が異なる。 0.60
NAD-GCL-GCL adopts the edge drop ratio of ADGCL-FIX at the saddle point of the optimization (Eq.8) while NAD-GCL-OPT optimally tunes the edge drop ratio over the validation datasets to match AD-GCL-OPT. NAD-GCL-GCLは最適化のサドル点でADGCL-FIXのエッジドロップ比(Eq.8)を採用し、NAD-GCL-OPTはAD-GCL-OPTと一致する検証データセット上のエッジドロップ比を最適に調整する。 0.66
We also adopt fully supervised GIN (F-GIN) to provide an anchor of the performance. また、フル教師付きGIN(F-GIN)を採用し、パフォーマンスのアンカーを提供する。 0.48
We stress that all methods adopt GIN [70] as the encoder. すべてのメソッドがエンコーダとしてGIN[70]を採用しています。 0.68
Except F-GIN, all methods adopt a downstream linear classifier or regressor with the same hyper-parameters for fair comparison. F-GINを除いて、全てのメソッドは、公正な比較のために同じハイパーパラメータを持つ下流線形分類器または回帰器を採用する。 0.55
We adopt linear models for downstream prediction by following [40], which explicitly attributes any performance gain/drop to the quality of learnt representations. ダウンストリーム予測には[40]に従って線形モデルを採用し,学習表現の品質に対して,パフォーマンスのゲイン/ドロップを明示的に識別する。 0.68
Tables 1 show the results for unsupervised graph level property prediction in social and chemical domains respectively. 表1は、社会ドメインおよび化学ドメインにおける教師なしグラフレベル特性予測の結果を示す。 0.73
We witness the big performance gain of AD-GCL as opposed to all baselines across all the datasets. すべてのデータセットのすべてのベースラインとは対照的に、AD-GCLの大幅なパフォーマンス向上が見られます。 0.60
Note GraphCL utilizes extensive evaluation to select the best combination of augmentions over a broad GDA family including node-dropping, edge dropping and subgraph sampling. note graphclは、ノードドロップ、エッジドロップ、サブグラフサンプリングを含む幅広いgdaファミリ上の拡張の最良の組み合わせを選択するために、広範な評価を利用する。 0.52
Our results indicate that such extensive evaluation may not be necessary while optimizing the augmentation strategy in an adversarial way is greatly beneficial. 以上の結果から,拡張戦略を逆行的に最適化する上で,このような広範な評価は不要である可能性が示唆された。 0.62
We stress that edge dropping is not cherry picked as the search space of augmentation strategies. 我々は、エッジドロップは拡張戦略の探索空間としてチェリー選択ではないことを強調する。 0.60
Other search spaces may even achieve better performance, while an extensive investigation is left for the future work. 他の検索スペースはより良いパフォーマンスを達成することができるが、将来の研究には広範な調査が残されている。
訳抜け防止モード: 他の検索空間はパフォーマンスも向上するでしょうが 今後の作業については広範な調査が残されている。
0.71
Moreover, AD-GCL also clearly improves upon the performance against its non-adversarial counterparts (NAD-GCL) across all the datasets, which further demonstrates stable and significant advantages of the AD-GCL principle. さらに、AD-GCLは、すべてのデータセットにまたがる非敵のNAD-GCL(NAD-GCL)に対するパフォーマンスも明らかに向上し、AD-GCL原則の安定性と顕著な優位性を示す。 0.64
Essentially, the input-graph-dependen t augmentation learnt by AD-GCL yields much benefit. 本質的に、AD-GCLによって学習された入力グラフ依存の増大は、多くの利益をもたらす。 0.40
Finally, we compare AD-GCL-FIX with AD-GCL-OPT. 最後に,AD-GCL-FIXとAD-GCL-OPTを比較した。 0.41
Interestingly, two methods achieve comparable results though AD-GCL-OPT is sometimes better. 興味深いことに、AD-GCL-OPTは時として優れているが、2つの手法が同等の結果を得る。 0.40
This observation implies that the AD-GCL principle may be robust to the choice of λreg and thus motivates the analysis in the next subsection. この観察は、AD-GCLの原理がλregの選択に頑健であり、従って次の部分集合における解析を動機付けることを示唆している。
訳抜け防止モード: この観察から、AD-GCL原理はλregの選択に対して堅牢である可能性が示唆される。 次の節で分析を動機付けます
0.66
Moreover, weak information from the downstream tasks indeed help with controlling the search space and further betters the performance. さらに、下流タスクからの弱い情報は、実際に検索スペースの制御に役立ち、パフォーマンスをさらに向上させる。 0.70
We also list the optimal λreg’s of AD-GCL-OPT for different datasets in Appendix F.1 for the purpose of comparison and reproduction. また、比較と再現を目的としたAppendix F.1の異なるデータセットに対するAD-GCL-OPTの最適λreg’sをリストアップする。 0.65
Note on the linear downstream classifier. 線形下流分類器について注意。 0.69
We find that the choice of the downstream classifier can significantly affect the evaluation of the self-supervised representations. ダウンストリーム分類器の選択は自己教師付き表現の評価に大きく影響することがわかった。 0.67
InfoGraph [18] and GraphCL [24] adopt a non-linear SVM model as the downstream classifier. InfoGraph [18] と GraphCL [24] は、下流の分類器として非線形SVMモデルを採用しています。 0.71
Such a non-linear SVM model is more powerful than the linear model we adopt and thus causes some performance gap between the results showed in Table 1 (TOP) and (BOTTOM) and their original results (also listed in Table 2 for quick reference). このような非線形SVMモデルは、私たちが採用している線形モデルよりも強力であり、表1(TOP)と表2(BOTTOM)で示された結果と元の結果(クイックレファレンスのために表2にも記載されている)の間にいくつかのパフォーマンスギャップを引き起こします。 0.70
We argue that using a non-linear SVM model as the downstream classifier is unfair, because the performance of even a randomly initialized untrained GIN (RU-GIN) is significantly improved (comparing results from Table 1 (TOP) to Table 2). 非線形SVMモデルを下流分類器として用いることは、ランダムに初期化した未学習GIN(RU-GIN)の性能が大幅に向上し(表1(TOP)から表2(Table2)に比較)、不公平であると主張する。 0.74
Therefore, we argue for adopting a linear classifier protocol as suggested by [40]. したがって, [40] が提案する線形分類器プロトコルの採用を議論する。 0.82
That having been said, our methods (both AD-GCL-FIX and AD-GCL-OPT) still performs significantly better than baselines in most cases, even when a non-linear SVM classifer is adopted, as shown in Table 2. とは言っても、表2に示すように、非線形SVMクラスが採用されている場合であっても、ほとんどの場合、我々の手法(AD-GCL-FIXとAD-GCL-OPTの両方)は依然としてベースラインよりも大幅にパフォーマンスが向上している。 0.57
Several relative gains are there no matter whether the downstream classifier is a simple linear model (Tables 1) or a non-linear SVM model (Table 2). ダウンストリーム分類器が単純な線形モデル(Tables 1)か非線形SVMモデル(Tables 2)かは関係なく、いくつかの相対的な利得がある。 0.81
AD-GCL methods significantly outperform InfoGraph in 5 over 8 datasets and GraphCL in 6 over 8 datasets. AD-GCLメソッドは、InfoGraphを5つ以上のデータセットで、GraphCLを6つ以上のデータセットで大幅に上回る。 0.54
This further provides the evidence for the effectiveness of our method. さらに,本手法の有効性を示すエビデンスを提供する。 0.68
8 8 0.85
英語(論文から抽出)日本語訳スコア
Figure 3: (a) λreg v.s. 図3: (a) λreg v.s 0.91
expected edge drop ratio EG[(cid:80) 予測エッジドロップ比EG[(cid:80) 0.73
e ωe/|E|] (measured at saddle point of Eq 8). e ωe/|E|] (Eq 8のサドル点で測定)。 0.72
(b) Training dynamics of expected drop ratio for λreg. (b)λregに対する期待落下率のトレーニングダイナミクス 0.75
(c) Validation performance for graph classification v.s. (c)グラフ分類v.s.の検証性能 0.88
edge drop ratio. Compare AD-GCL and GCL with non-adversarial edge dropping. エッジドロップ比。 AD-GCL と GCL を非逆エッジドロップと比較する。 0.65
The markers on AD-GCL’s performance curves show the λreg used. AD-GCLのパフォーマンス曲線のマーカーは、λregが使われることを示している。 0.62
In our evaluation, we also observe several further benefits of using a downstream linear model in practice, would like to list them here. 私たちの評価では、実際に下流線形モデルを使用することによる、さらにいくつかの利点を享受しています。 0.68
First, linear classifiers are much faster to train/converge in practice, especially for the large-scaled datasets or large embedding dimensions, which is good for practical usage. 第一に、線形分類器は、特に大規模データセットや大規模な埋め込み次元の場合、実際は訓練/収束がはるかに高速である。 0.73
We observe that non-linear SVM classifiers induce a rather slow convergence, when applying to those several OGB datasets where the embedding dimensions are 300 (Table 1 bottom). 埋め込み次元が300(表1下)の複数のOGBデータセットに適用した場合,非線形SVM分類器は比較的緩やかな収束を誘導する。 0.80
Second, compared to the linear model, the non-liner SVM may introduce additional hyper-parameters which not only need further effort to be tuned but also weaken the effect of the self-training procedure on the downstream performance. 第二に、線形モデルと比較して、非線形SVMは、調整する余分な労力を必要とするだけでなく、下流性能に対する自己学習手順の影響を弱める、追加のハイパーパラメータを導入するかもしれない。 0.60
NCI1 PROTEINS 72.73 ± 0.51 74.44 ± 0.31 74.39 ± 0.45 75.04 ± 0.48 75.04 ± 0.48 NCI1 PROTEINS 72.73 ± 0.51 74.44 ± 0.31 74.39 ± 0.45 75.04 ± 0.48 75.04 ± 0.48 0.66
DD 75.67 ± 0.29 72.85 ± 1.78 78.62 ± 0.40 75.38 ± 0.41 75.73 ± 0.51 DD 75.67 ± 0.29 72.85 ± 1.78 78.62 ± 0.40 75.38 ± 0.41 75.73 ± 0.51 0.69
IMDB-B 69.37 ± 0.37 65.40 ± 0.17 RU-GIN 73.03 ± 0.87 76.20 ± 1.06 InfoGraph 71.14 ± 0.44 77.87 ± 0.41 GraphCL 71.49 ± 0.98 75.77 ± 0.50 AD-GCL-FIX AD-GCL-OPT 75.86 ± 0.62 71.49 ± 0.98 Table 2: Unsupervised Learning results on TU Datasets using a non-linear SVM classifier as done in GraphCL [24]. IMDB-B 69.37 ± 0.37 65.40 ± 0.17 RU-GIN 73.03 ± 0.87 76.20 ± 1.06 InfoGraph 71.14 ± 0.44 77.87 ± 0.41 GraphCL 71.49 ± 0.98 75.77 ± 0.50 AD-GCL-FIX AD-GCL-OPT 75.86 ± 0.62 71.49 ± 0.98 Table 2: GraphCL [24] で行う非線形SVM分類器を用いたTUデータセットの教師なし学習結果。 0.59
Averaged Accuracy (%) ± std. 平均精度 (%) ± std。 0.74
over 10 runs. This is different from the linear classifier used to show results in Tables 1 (TOP) and (BOTTOM). 10回以上。 これは、テーブル1(TOP)と(BOTTOM)で結果を示すために使われる線形分類器とは異なる。 0.64
COLLAB 65.29 ± 0.16 70.65 ± 1.13 71.36 ± 1.15 74.79 ± 0.41(cid:63) 74.89 ± 0.90(cid:63) COLLAB 65.29 ± 0.16 70.65 ± 1.13 71.36 ± 1.15 74.79 ± 0.41(cid:63) 74.89 ± 0.90(cid:63) 0.58
MUTAG 87.39 ± 1.09 89.01 ± 1.13 86.80 ± 1.34 88.62 ± 1.27 88.62 ± 1.27 MUTAG 87.39 ± 1.09 89.01 ± 1.13 86.80 ± 1.34 88.62 ± 1.27 88.62 ± 1.27 0.54
RDT-B 76.86 ± 0.25 82.50 ± 1.42 89.53 ± 0.84 92.06 ± 0.42(cid:63) 92.35 ± 0.42(cid:63) RDT-B 76.86 ± 0.25 82.50 ± 1.42 89.53 ± 0.84 92.06 ± 0.42(cid:63) 92.35 ± 0.42(cid:63) 0.58
RDT-M5K 48.48 ± 0.28 53.46 ± 1.03 55.99 ± 0.28 56.24 ± 0.39 56.24 ± 0.39 RDT-M5K 48.48 ± 0.28 53.46 ± 1.03 55.99 ± 0.28 56.24 ± 0.39 56.24 ± 0.39 0.49
5.2 Analysis of Regularizing the GDA Model Here, we study how different λreg’s impact the expected edge drop ratio of AD-GCL at the saddle point of Eq 8 and further impact the model performance on the validation datasets. 5.2 GDAモデルの正規化分析 ここでは, λregの差がEq 8のサドル点におけるAD-GCLのエッジドロップ率にどのように影響し, モデル性能が検証データセットに与える影響について検討する。 0.81
Due to the page limitation, we focus on classification tasks in the main text while leaving the discussion on regression tasks in the Appendix F.2. ページ制限のため、本文の分類タスクに焦点を当て、Appendix F.2の回帰タスクについて議論する。 0.63
Figure 3 shows the results. 図3は結果を示しています。 0.67
As shown in Figure 3(a), a large λreg tends to yield a small expected edge drop ratio at the convergent point, which matches our expectation. 図3(a)に示すように、大きなλregは収束点における小さな期待のエッジドロップ比をもたらす傾向にあり、これは我々の期待と一致する。 0.78
λreg ranging from 0.1 to 10.0 corresponds to dropping almost everything (80% edges) to nothing (<10% edges). λreg は0.1から10.0の範囲で、ほぼすべてのもの(80%のエッジ)をゼロ(10%のエッジ)に落とす。 0.69
The validation performance in Figure 3(c) is out of our expectation. 図3(c)の検証性能は期待外です。 0.60
We find that for classification tasks, the performance of the encoder is extremely robust to different choices of λreg’s when trained w.r.t. 分類タスクにおいて、エンコーダの性能は、訓練された w.r.t において λreg の異なる選択に対して非常に頑健である。 0.65
the AD-GCL principle, though the edge drop ratios at the saddle point are very different. AD-GCLの原理は、サドル点におけるエッジドロップ比は非常に異なる。 0.69
However, the non-adversarial counterpart NAD-GCL is sensitive to different edge drop ratios, especially on the molecule dataset (e g , ogbg-molclitox, ogbg-molbbbp). しかし、非敵対的なNAD-GCLは、特に分子データセット(例えば、ogbg-molclitox、ogbg-molbbbp)において異なるエッジドロップ比に敏感である。 0.61
We actually observe the similar issue of NAD-GCL across all molecule datasets (See Appendix F.3). NAD-GCLの全ての分子データセットにおける類似の問題を実際に観察する(See Appendix F.3)。 0.68
More interesting aspects of our results appear at the extreme cases. 結果のより興味深い側面は、極端なケースに現れます。 0.66
When λreg ≥ 5.0, the convergent edge drop ratio is close to 0, which means no edge dropping, but AD-GCL still significantly outperforms naive GCL with small edge drop ratio. λreg ≥ 5.0 の場合、収束エッジドロップ比は 0 に近づき、これはエッジドロップを行わないことを意味するが、AD-GCL は依然としてエッジドロップ比が小さいナイーブ GCL を著しく上回っている。
訳抜け防止モード: λreg ≥ 5.0 のとき、収束エッジドロップ比は 0 に近い。 エッジを落とさないという意味ですが ad - gcl は小さいエッジドロップ比で naive gcl を大きく上回っている。
0.67
When λreg = 0.3, the convergent edge drop ratio is greater than 0.6, which means dropping more than half of the edges, but AD-GCL still keeps reasonable performance. λreg = 0.3 の場合、収束エッジドロップ比は 0.6 より大きく、つまりエッジの半分以上を落とすことを意味するが、AD-GCL は依然として適切な性能を維持している。 0.63
We suspect that such benefit comes from the training dynamics of AD-GCL (examples as shown in Figure 3(b)). このようなメリットは,AD-GCL(図3(b)に示すような例)のトレーニングダイナミクスから生じるものと思われる。 0.73
Particularly, optimizing augmentations allows for 特に 増補を最適化することで 0.79
9 (a)(b)(c) 9 (a)(b)(c) 0.85
英語(論文から抽出)日本語訳スコア
Pre-Train Dataset Fine-Tune Dataset No Pre-Train EdgePred [17] AttrMasking [17] ContextPred [17] InfoGraph [18] GraphCL [24] AD-GCL-FIX Our Ranks Pre-Train Dataset Fine-Tune Dataset No Pre-Train EdgePred [17] AttrMasking [17] ContextPred [17] InfoGraph [18] GraphCL [24] AD-GCL-FIX 我々のランク 0.85
64.8 ± 1.0 65.7 ± 1.3 65.2 ± 1.6 64.4 ± 1.3 64.1 ± 1.5 67.88 ± 0.85 68.83 ± 1.26 Table 3: Transfer learning performance for chemical molecules property prediction (mean ROC-AUC ± std. 64.8 ± 1.0 65.7 ± 1.3 65.2 ± 64.4 ± 1.3 64.1 ± 1.5 67.88 ± 0.85 68.83 ± 1.26 表 3:化学分子特性予測の転送学習性能(roc-auc ± std) 0.66
over 10 runs). Bold indicates our methods outperform baselines with ≥ 0.5 std.. 10回以上)。 Boldは,本手法が0.5std未満のベースラインより優れていることを示す。 0.47
75.3 ± 1.9 76.3 ± 1.0 77.2 ± 1.1 77.3 ± 1.0 76.0 ± 0.7 78.47 ± 1.22 78.28 ± 0.97 75.3 ± 1.9 76.3 ± 1.0 77.2 ± 1.1 77.3 ± 1.0 76.0 ± 0.7 78.47 ± 1.22 78.28 ± 0.97 0.52
ToxCast 63.4 ± 0.6 64.1± 0.6 64.2 ± 0.5 63.9 ± 0.6 62.7 ± 0.4 62.40 ± 0.57 63.07 ± 0.72 ToxCast 63.4 ± 0.6 64.1± 0.6 64.2 ± 0.5 63.9 ± 0.6 62.7 ± 0.4 62.40 ± 0.57 63.07 ± 0.72 0.51
Tox21 74.0 ± 0.8 76.0 ± 0.6 76.7 ± 0.4 75.7 ± 0.7 75.3 ± 0.5 73.87 ± 0.66 76.54 ± 0.82 Tox21 74.0 ± 0.8 76.0 ± 0.6 76.7 ± 0.4 75.7 ± 0.7 75.3 ± 0.5 73.87 ± 0.66 76.54 ± 0.82 0.52
BBBP 65.8 ± 4.5 67.3 ± 2.4 64.3 ± 2.8 68.0 ± 2.0 68.8 ± 0.8 69.68 ± 0.67 70.01 ±1.07 BBBP 65.8 ± 4.5 67.3 ± 2.4 64.3 ± 2.8 68.0 ± 2.0 68.8 ± 0.8 69.68 ± 0.67 70.01 ±1.07 0.51
1 BACE 70.1 ± 5.4 79.9 ± 0.9 79.3 ± 1.6 79.6 ± 1.2 75.9 ± 1.6 75.38 ± 1.44 78.51 ± 0.80 1 BACE 70.1 ± 5.4 79.9 ± 0.9 79.3 ± 1.6 79.6 ± 1.2 75.9 ± 1.6 75.38 ± 1.44 78.51 ± 0.80 0.69
4 MUV 71.8 ± 2.5 74.1 ± 2.1 74.7 ± 1.4 75.8 ± 1.7 75.3 ± 2.5 69.8 ± 2.66 72.30 ± 1.61 4 MUV 71.8 ± 2.5 74.1 ± 2.1 74.7 ± 1.4 75.8 ± 1.7 75.3 ± 2.5 69.8 ± 2.66 72.30 ± 1.61 0.74
5 ClinTox 58.0 ± 4.4 64.1 ± 3.7 71.8 ± 4.1 65.9 ± 3.8 69.9 ±3.0 75.99 ± 2.65 79.78 ± 3.52 5 ClinTox 58.0 ± 4.4 64.1 ± 3.7 71.8 ± 4.1 65.9 ± 3.8 69.9 ±3.0 75.99 ± 2.65 79.78 ± 3.52 0.68
1 SIDER 57.3 ± 1.6 60.4 ± 0.7 61.0 ± 0.7 60.9 ± 0.6 58.4 ± 0.8 60.53 ± 0.88 63.28 ± 0.79 1 SIDER 57.3 ± 1.6 60.4 ± 0.7 61.0 ± 0.7 60.9 ± 0.6 58.4 ± 0.8 60.53 ± 0.88 63.28 ± 0.79 0.69
1 5 1 ZINC 2M 1 5 1 ZINC 2M 0.86
PPI-306K HIV PPI-306K HIV 0.66
PPI 2 2 Dataset No Pre-Train SS-GCN-A GAE [20] InfoGraph [18] GraphCL [24] AD-GCL-FIX Our Ranks PPI 2 2 Dataset No Pre-Train SS-GCN-A GAE [20] InfoGraph [18] GraphCL [24] AD-GCL-FIX Our Ranks 0.83
NCI1 73.72 ± 0.24 73.59 ± 0.32 74.36 ± 0.24 74.86 ± 0.26 74.63 ± 0.25 75.18 ± 0.31 NCI1 73.72 ± 0.24 73.59 ± 0.32 74.36 ± 0.24 74.86 ± 0.26 74.63 ± 0.25 75.18 ± 0.31 0.65
PROTEINS 70.40 ± 1.54 70.29 ± 0.64 70.51 ± 0.17 72.27 ± 0.40 74.17 ± 0.34 73.96 ± 0.47 PROTEINS 70.40 ± 1.54 70.29 ± 0.64 70.51 ± 0.17 72.27 ± 0.40 74.17 ± 0.34 73.96 ± 0.47 0.53
DD 73.56 ± 0.41 74.30 ± 0.81 74.54 ± 0.68 75.78 ± 0.34 76.17 ± 1.37 77.91 ± 0.73(cid:63) DD 73.56 ± 0.41 74.30 ± 0.81 74.54 ± 0.68 75.78 ± 0.34 76.17 ± 1.37 77.91 ± 0.73(cid:63) 0.69
COLLAB 73.71± 0.27 74.19 ± 0.13 75.09 ± 0.19 73.76 ± 0.29 74.23 ± 0.21 75.82 ± 0.26(cid:63) COLLAB 73.71± 0.27 74.19 ± 0.13 75.09 ± 0.19 73.76 ± 0.29 74.23 ± 0.21 75.82 ± 0.26(cid:63) 0.53
RDT-B 86.63 ± 0.27 87.74 ± 0.39 87.69 ± 0.40 88.66 ± 0.95 89.11 ± 0.19 90.10 ± 0.15(cid:63) RDT-B 86.63 ± 0.27 87.74 ± 0.39 87.69 ± 0.40 88.66 ± 0.95 89.11 ± 0.19 90.10 ± 0.15(cid:63) 0.56
RDT-M5K 51.33 ± 0.44 52.01 ± 0.20 53.58 ± 0.13 53.61 ± 0.31 52.55 ± 0.45 53.49 ± 0.28 RDT-M5K 51.33 ± 0.44 52.01 ± 0.20 53.58 ± 0.13 53.61 ± 0.31 52.55 ± 0.45 53.49 ± 0.28 0.49
Table 4: Semi-supervised learning performance with 10% labels on TU datasets [71] (10-Fold Accuracy (%)± std over 5 runs). 表4: TUデータセット[71]上の10%ラベルによる半教師付き学習性能 [10-Fold Accuracy (%)± std over 5 run)。 0.83
Bold/Bold(cid:63) indicate our methods outperform baselines with ≥ 0.5 std/ ≥ 2 std respectively. bold/bold(cid:63)は、それぞれ0.5 std/ ≥ 2 stdのベースラインを上回っていることを示す。 0.54
1 2 1 1 1 3 1 2 1 1 1 3 0.85
non-uniform edge-dropping probability. 非均一なエッジドロップ確率。 0.57
During the optimization procedure, AD-GCL pushes high drop probability on redundant edges while low drop probability on critical edges, which allows the encoder to differentiate redundant and critical information. 最適化手順の間、AD-GCLは冗長エッジに高いドロップ確率をプッシュし、クリティカルエッジに低いドロップ確率をプッシュし、エンコーダは冗長かつクリティカルな情報を区別することができる。 0.68
This cannot be fully explained by the final convergent edge drop ratio and motivates future investigation of AD-GCL from a more in-depth theoretical perspective. これは最終収束エッジドロップ比によって完全に説明できず、より深い理論的な観点からAD-GCLの将来の研究を動機付ける。 0.73
5.3 Transfer Learning Next, we evaluate the GNN encoders trained by AD-GCL on transfer learning to predict chemical molecule properties and biological protein functions. 5.3 転送学習 次に、ad-gclにより訓練されたgnnエンコーダを用いて転写学習を行い、化学分子特性および生物学的タンパク質機能を予測する。 0.61
We follow the setting in [17] and use the same datasets: GNNs are pre-trained on one dataset using self-supervised learning and later fine-tuned on another dataset to test out-of-distribution performance. gnnは、自己教師付き学習を使用して1つのデータセットで事前トレーニングされ、後に別のデータセットで微調整されて、分散性能をテストする。 0.67
Here, we only consider AD-GCL-FIX as AD-GCL-OPT is only expected to have better performance. ここでは、AD-GCL-FIXのみをAD-GCL-OPTがより良い性能を期待されているとみなす。 0.57
We adopt baselines including no pre-trained GIN (i.e., without self-supervised training on the first dataset and with only fine-tuning), InfoGraph [18], GraphCL [24], three different pre-train strategies in [17] including edge prediction, node attribute masking and context prediction that utilize edge, node and subgraph context respectively. 我々は、事前トレーニングされたGIN(すなわち、最初のデータセットで自己教師付きトレーニングをせずに、微調整のみで)、InfoGraph [18]、GraphCL [24]、エッジ予測、ノード属性マスキング、エッジ、ノードコンテキスト、サブグラフコンテキストをそれぞれ利用するコンテキスト予測を含む[17]の3つの異なる事前トレーニング戦略を採用する。 0.63
More detailed setup is given in Appendix G. According to Table 3, AD-GCL-FIX significantly outperforms baselines in 3 out of 9 datasets and achieves a mean rank of 2.4 across these 9 datasets which is better than all baselines. テーブル3によると、AD-GCL-FIXは9つのデータセットのうち3つでベースラインを著しく上回り、これらの9つのデータセットの平均階数が2.4に達し、すべてのベースラインよりも優れている。 0.66
Note that although AD-GCL only achieves 5th on some datasets, AD-GCL still significantly outperforms InfoGraph [18] and GraphCL [24], both of which are strong GNN self-training baselines. 注意すべき点は、AD-GCLはいくつかのデータセットでのみ5番目を達成しているが、AD-GCLはInfoGraph [18]とGraphCL [24]を大きく上回っている。 0.63
In contrast to InfoGraph [18] and GraphCL [24], AD-GCL achieves some performance much closer to those baselines (EdgePred, AttrMasking and ContextPred) based on domain knowledge and extensive evaluation in [17]. InfoGraph [18] や GraphCL [24] とは対照的に,AD-GCL は [17] のドメイン知識と広範な評価に基づいて,そのベースライン(EdgePred,AttrMaskin g,ContextPred) にかなり近いパフォーマンスを実現しています。 0.82
This is rather significant as our method utilizes only edge dropping GDA, which again shows the effectiveness of the AD-GCL principle. この方法はエッジドロップgdaのみを利用しており,ad-gcl原理の有効性を示すものである。 0.66
5.4 Semi-Supervised Learning 5.4 半教師付き学習 0.49
Lastly, we evaluate AD-GCL on semi-supervised learning for graph classification on the benchmark TU datasets [71]. 最後に,ベンチマークtuデータセットのグラフ分類のための半教師付き学習におけるad-gclの評価 [71]。 0.63
We follow the setting in [24]: GNNs are pre-trained on one dataset using selfsupervised learning and later fine-tuned based on 10% label supervision on the same dataset. GNNは、自己教師付き学習を使用して、1つのデータセットで事前トレーニングされ、その後、同じデータセット上で10%のラベル監督に基づいて微調整されます。 0.58
Again, we only consider AD-GCL-FIX and compare it with several baselines in [24]: 1) no pre-trained GCN, which is directly trained by the 10% labels from scratch, 2) SS-GCN-A, a baseline that introduces more labelled data by creating random augmentations and then gets trained from scratch, 3) a predictive method GAE [20] that utilizes adjacency reconstruction in the pre-training phase, and GCL methods, 4) InfoGraph [18] and 5) GraphCL [24]. 繰り返しますが、AD-GCL-FIXを考慮して、[24]のいくつかのベースラインと比較するだけです。 1) スクラッチから10%のラベルで直接トレーニングされた事前学習GCN、2) SS-GCN-A、ランダムな拡張を生成してラベル付きデータを導入し、スクラッチからトレーニングされたベースライン、3) 事前トレーニングフェーズでのアジャクシー再構築を利用する予測手法GAE[20]、GCLメソッド、4) InfoGraph[18]、5) GraphCL[24]。 0.74
Note that here we have to keep the encoder architecture same and thus AD-GCL-FIX adopts GCN as the encoder. ここではエンコーダアーキテクチャをそのままにしておく必要があるので、AD-GCL-FIXはGCNをエンコーダとして採用する。 0.57
Table 4 shows the results. 表4は結果を示しています。 0.64
AD-GCL-FIX significantly outperforms baselines in 3 out of 6 datasets and achieves a mean rank of 1.5 across these 6 datasets, which again demonstrates the strength of AD-GCL. AD-GCL-FIXは、6つのデータセットのうち3つでベースラインを著しく上回り、6つのデータセットで平均1.5のランクを達成した。 0.60
10 10 0.85
英語(論文から抽出)日本語訳スコア
6 Conclusions In this work we have developed a theoretically motivated, novel principle: AD-GCL that goes a step beyond the conventional InfoMax objective for self-supervised learning of GNNs. 6 結論 本稿では,GNN の自己教師型学習における従来の InfoMax 目標を超える,理論的に動機づけられた,新しい原理である AD-GCL を開発した。 0.70
The optimal GNN encoders that are agnostic to the downstream tasks are the ones that capture the minimal sufficient information to identify each graph in the dataset. 下流タスクに非依存な最適なGNNエンコーダは、データセットの各グラフを特定するのに必要な最小限の情報を取得するものである。 0.80
To achieve this goal, AD-GCL suggests to better graph contrastive learning via optimizing graph augmentations in an adversarial way. この目的を達成するため、AD-GCLはグラフ拡張を対角的に最適化することで、グラフのコントラスト学習を改善することを提案している。 0.59
Following this principle, we developed a practical instantiation based on learnable edge dropping. この原理に従い,学習可能なエッジドロップに基づく実用的なインスタンス作成法を開発した。 0.58
We have extensively analyzed and demonstrated the benefits of AD-GCL and its instantiation with real-world datasets for graph property prediction in unsupervised, transfer and semi-supervised learning settings. 我々は,教師なし,転送なし,半教師なし学習におけるグラフ特性予測のためのad-gclとその実世界のデータセットによるインスタンス化の利点を広範囲に解析し,実証した。 0.52
References [1] A. W. Senior, R. Evans, J. Jumper, J. Kirkpatrick, L. Sifre, T. Green, C. Qin, A. Žídek, A. W. Nelson, A. Bridgland et al , “Improved protein structure prediction using potentials from deep learning,” Nature, vol. 参照:[1] A. W. Senior, R. Evans, J. Jumper, J. Kirkpatrick, L. Sifre, T. Green, C. Qin, A. sídek, A. W. Nelson, A. Bridgland et al, “Improved protein structure prediction using potentials from Deep Learning”, Nature, vol。 0.93
577, no. 7792, pp. 577年? 7792, pp。 0.63
706–710, 2020. 706–710, 2020. 0.84
[2] J. Shlomi, P. Battaglia, and J.-R. Vlimant, “Graph neural networks in particle physics,” Machine [2] J. Shlomi, P. Battaglia, J.-R. Vlimant, “Graph Neural Network in Particle Physics”, Machine 0.89
Learning: Science and Technology, vol. 学習:科学と技術、その1。 0.73
2, no. 2, p. 021001, 2020. 2位はノー。 2 P. 021001, 2020。 0.76
[3] W. L. Hamilton, “Graph representation learning,” Synthesis Lectures on Artificial Intelligence [3] w. l. hamilton, “graph representation learning”, synthesis lectures on artificial intelligence 0.78
and Machine Learning, vol. そして機械学習、vol。 0.62
14, no. 3, pp. 1–159, 2020. 14だ 3、p。 1–159, 2020. 0.61
[4] K. Hornik, M. Stinchcombe, H. White et al , “Multilayer feedforward networks are universal K. Hornik, M. Stinchcombe, H. White et al , “多層フィードフォワードネットワークは普遍的である。 0.87
approximators.” Neural Networks, vol. 近似器”ニューラルネットワーク, vol. 0.80
2, no. 5, pp. 2位はノー。 5, pp。 0.76
359–366, 1989. 359–366, 1989. 0.84
[5] G. Cybenko, “Approximation by superpositions of a sigmoidal function,” Mathematics of 5] g. cybenko,「sgmoidal functionの重ね合わせによる近似」数学 0.63
control, signals and systems, vol. 制御、信号、システム。 0.50
2, no. 4, pp. 2位はノー。 4, pp。 0.75
303–314, 1989. 303–314, 1989. 0.84
[6] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini, “The graph neural F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, G. Monfardini, “The graph neural” 0.88
network model,” IEEE Transactions on Neural Networks, vol. ieee transactions on neural networks, vol. “ネットワークモデル” ニューラルネットワーク上でのトランザクション。 0.57
20, no. 1, pp. 61–80, 2008. 20だ 1、p。 61–80, 2008. 0.63
[7] I. Chami, S. Abu-El-Haija, B. Perozzi, C. Ré, and K. Murphy, “Machine learning on graphs: A I. Chami, S. Abu-El-Haija, B. Perozzi, C. Ré, K. Murphy, “Machine learning on graphs: A” 0.87
model and comprehensive taxonomy,” arXiv preprint arXiv:2005.03675, 2020. とarXiv preprint arXiv:2005.03675, 2020。 0.62
[8] Z. Zhang, P. Cui, and W. Zhu, “Deep learning on graphs: A survey,” IEEE TKDE, 2020. Z. Zhang, P. Cui, W. Zhu, “Deep Learning on graphs: A survey”, IEEE TKDE, 2020。 0.71
[9] W. L. Hamilton, R. Ying, and J. Leskovec, “Representation learning on graphs: Methods and 9]W.L. Hamilton, R. Ying, J. Leskovec, “Representation Learning on graphs: Methods and” 0.92
applications,” IEEE Data Engineering Bulletin, vol. とIEEE Data Engineering Bulletin, vol. 0.57
40, no. 3, pp. 52–74, 2017. 40だ 3、p。 52–74, 2017. 0.63
[10] T. N. Kipf and M. Welling, “Semi-supervised classification with graph convolutional networks,” 10] t.n. kipf と m. welling, “semi-supervised classification with graph convolutional networks” 0.85
in International Conference on Learning Representations, 2017. 2017年、国際学習表現会議に参加。 0.78
[11] H. Dai, B. Dai, and L. Song, “Discriminative embeddings of latent variable models for structured H. Dai, B. Dai, L. Song, “Discriminative embeddeds of latent variable model for structured” 0.73
data,” in International Conference on Machine Learning. と、international conference on machine learningで語った。 0.68
PMLR, 2016, pp. pmlr、2016年。 0.40
2702–2711. 2702–2711. 0.71
[12] P. Veliˇckovi´c, G. Cucurull, A. Casanova, A. Romero, P. Liò, and Y. Bengio, “Graph attention [12]P.ヴェリシュコヴィ ́c, G. Cucurull, A. Casanova, A. Romero, P. Lio, Y. Bengio, “Graph attention” 0.84
networks,” in International Conference on Learning Representations, 2018. と、2018年のinternational conference on learning representationsで述べている。 0.70
[13] M. Zhang, Z. Cui, M. Neumann, and Y. Chen, “An end-to-end deep learning architecture for graph classification,” in the AAAI Conference on Artificial Intelligence, 2018, pp. M. Zhang, Z. Cui, M. Neumann, Y. Chen, “An end-to-end Deep Learning architecture for graph classification” in the AAAI Conference on Artificial Intelligence, 2018, pp。 0.83
4438–4445. 4438–4445. 0.71
[14] K. Xu, W. Hu, J. Leskovec, and S. Jegelka, “How powerful are graph neural networks?” in 14] K. Xu, W. Hu, J. Leskovec, S. Jegelka, “グラフニューラルネットワークはどの程度強力か? 0.76
International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019参加。 0.87
[15] C. Morris, M. Ritzert, M. Fey, W. L. Hamilton, J. E. Lenssen, G. Rattan, and M. Grohe, “Weisfeiler and leman go neural: Higher-order graph neural networks,” in the AAAI Conference on Artificial Intelligence, vol. C. Morris, M. Ritzert, M. Fey, W. L. Hamilton, J. E. Lenssen, G. Rattan, M. Grohe, “Weisfeiler and leman go neural: Higher-order graph neural network” in the AAAI Conference on Artificial Intelligence, vol。 0.90
33, 2019, pp. 第33巻、2019年。 0.50
4602–4609. 4602–4609. 0.71
[16] P. Li, Y. Wang, H. Wang, and J. Leskovec, “Distance encoding: Design provably more powerful neural networks for graph representation learning,” Advances in Neural Information Processing Systems, vol. 16] P. Li, Y. Wang, H. Wang, J. Leskovec, “Distance encoding: Design provably more powerful neural network for graph representation learning”, Advances in Neural Information Processing Systems, vol. 0.86
33, 2020. [17] W. Hu, B. Liu, J. Gomes, M. Zitnik, P. Liang, V. Pande, and J. Leskovec, “Strategies for pre-training graph neural networks,” International Conference on Learning Representations, 2020. 33, 2020. W. Hu, B. Liu, J. Gomes, M. Zitnik, P. Liang, V. Pande, J. Leskovec, “Strategies for Pre-training graph Neural Network”, International Conference on Learning Representations, 2020. ] 0.87
[18] F.-Y. Sun, J. Hoffmann, and J. Tang, “Infograph: Unsupervised and semi-supervised graph-level representation learning via mutual information maximization,” arXiv preprint arXiv:1908.01000, 2019. 18) F.-Y。 Sun, J. Hoffmann, J. Tang, “Infograph: Unsupervised and semi-supervised graph-level representation learning via mutual information maximization” arXiv preprint arXiv:1908.01000, 2019。 0.83
11 11 0.85
英語(論文から抽出)日本語訳スコア
[19] H. G. Vogel, Drug discovery and evaluation: pharmacological assays. 19] h. g. vogel, drug discovery and evaluation: pharmacological assays. 0.86
Springer Science & Springer Science 0.56
Business Media, 2002. 2002年、ビジネス・メディア。 0.77
[20] T. N. Kipf and M. Welling, “Variational graph auto-encoders,” arXiv preprint arXiv:1611.07308, [20] T. N. Kipf, M. Welling, “Variational graph auto-encoders” arXiv preprint arXiv:1611.07308, 0.84
2016. [21] A. Grover, A. Zweig, and S. Ermon, “Graphite: Iterative generative modeling of graphs,” in 2016. 21] a. grover, a. zweig, and s. ermon, “graphite: iterative generative modeling of graphs” in 0.80
International Conference on Machine Learning. 機械学習に関する国際会議。 0.83
PMLR, 2019, pp. PMLR, 2019, pp。 0.82
2434–2444. 2434–2444. 0.71
[22] Z. Peng, W. Huang, M. Luo, Q. Zheng, Y. Rong, T. Xu, and J. Huang, “Graph representation learning via graphical mutual information maximization,” in Proceedings of The Web Conference 2020, 2020. 922] Z. Peng, W. Huang, M. Luo, Q. Zheng, Y. Rong, T. Xu, J. Huang, “Graph representation learning via graphical mutual information maximization” in Proceedings of The Web Conference 2020, 2020。 0.87
[23] P. Veliˇckovi´c, W. Fedus, W. L. Hamilton, P. Liò, Y. Bengio, and R. D. Hjelm, “Deep graph [23]P.ヴェリシュコヴィ ́c, W. Fedus, W. L. Hamilton, P. Liu, Y. Bengio, R. D. Hjelm, “Deep graph” 0.79
infomax,” arXiv preprint arXiv:1809.10341, 2018. arXiv preprint arXiv:1809.10341, 2018。 0.86
[24] Y. You, T. Chen, Y. Sui, T. Chen, Z. Wang, and Y. Shen, “Graph contrastive learning with [24]Y。 You, T. Chen, Y. Sui, T. Chen, Z. Wang, Y. Shen, “Graph contrastive learning with” 0.84
augmentations,” Advances in Neural Information Processing Systems, vol. ニューラル・インフォメーション・プロセッシング・システム(neural information processing system, vol.)の進歩。 0.68
33, 2020. [25] K. Hassani and A. H. Khasahmadi, “Contrastive multi-view representation learning on graphs,” 33, 2020. K. Hassani and A. H. Khasahmadi, “Contrastive multi-view representation learning on graphs” 0.84
in International Conference on Machine Learning. 機械学習に関する国際会議に参加。 0.80
PMLR, 2020, pp. PMLR, 2020, pp。 0.81
4116–4126. 4116–4126. 0.71
[26] Y. Xie, Z. Xu, Z. Wang, and S. Ji, “Self-supervised learning of graph neural networks: A unified Y.Xie, Z. Xu, Z. Wang, S. Ji, “グラフニューラルネットワークの自己教師型学習:統一化 0.78
review,” arXiv preprint arXiv:2102.10757, 2021. arXiv preprint arXiv:2102.10757, 2021。 0.86
[27] Y. Liu, S. Pan, M. Jin, C. Zhou, F. Xia, and P. S. Yu, “Graph self-supervised learning: A survey,” [27] Y. Liu, S. Pan, M. Jin, C. Zhou, F. Xia, P. S. Yu, “Graph self-supervised learning: A survey” 0.95
arXiv preprint arXiv:2103.00111, 2021. arXiv preprint arXiv:2103.00111, 2021 0.81
[28] S. Zhang, Z. Hu, A. Subramonian, and Y. [28]S. Zhang, Z. Hu, A. Subramonian, Y 0.83
Sun, “Motif-driven contrastive learning of graph sun, “motifによるグラフのコントラスト学習” 0.77
representations,” arXiv preprint arXiv:2012.12533, 2020. arXiv preprint arXiv:2012.12533, 2020。 0.87
[29] S. Thakoor, C. Tallec, M. G. Azar, R. Munos, P. Veliˇckovi´c, and M. Valko, “Bootstrapped [29]S. Thakoor, C. Tallec, M. G. Azar, R. Munos, P. Veli'ckovi ́c, M. Valko, “Bootstrapped” 0.79
representation learning on graphs,” arXiv preprint arXiv:2102.06514, 2021. arXiv preprint arXiv:2102.06514, 2021。 0.62
[30] Y. Zhu, Y. Xu, F. Yu, Q. Liu, S. Wu, and L. Wang, “Graph contrastive learning with adaptive [30] Y. Zhu, Y. Xu, F. Yu, Q. Liu, S. Wu, L. Wang, “Graph contrastive learning with adapt” 0.94
augmentation,” arXiv preprint arXiv:2010.14945, 2020. arXiv preprint arXiv:2010.14945, 2020。 0.85
[31] J. Qiu, Q. Chen, Y. Dong, J. Zhang, H. Yang, M. Ding, K. Wang, and J. Tang, “Gcc: Graph contrastive coding for graph neural network pre-training,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020, pp. J. Qiu, Q. Chen, Y. Dong, J. Zhang, H. Yang, M. Ding, K. Wang, J. Tang, “Gcc: Graph contrastive coding for graph neural network pre-training” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020, pp. 0.91
1150– 1160. 1150– 1160. 0.94
[32] M. Belkin and P. Niyogi, “Laplacian eigenmaps for dimensionality reduction and data represen- [32]M.ベルキンとP.ニヨギ「次元減少とデータ再帰のためのラプラシアン固有写像」 0.58
tation,” Neural computation, vol. tation”, ニューラル計算, vol。 0.57
15, no. 6, pp. 15だ 6, pp。 0.59
1373–1396, 2003. 1373–1396, 2003. 0.84
[33] B. Perozzi, R. Al-Rfou, and S. Skiena, “Deepwalk: Online learning of social representations,” in Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014, pp. B. Perozzi, R. Al-Rfou, and S. Skiena, “Deepwalk: Online Learning of social representations” in Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014 pp. 0.84
701–710. [34] A. Grover and J. Leskovec, “node2vec: Scalable feature learning for networks,” in the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, pp. 701–710. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016 pp.[34] A. Grover, J. Leskovec, “node2vec: Scalable feature learning for network”. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016.
訳抜け防止モード: 701–710. [34 ] A. Grover と J. Leskovec, “ node2vec : Scalable feature learning for network” ACM SIGKDD International Conference on Knowledge Discovery and Data Mining に参加して 2016年、p。
0.79
855–864. [35] L. F. Ribeiro, P. H. Saverese, and D. R. Figueiredo, “struc2vec: Learning node representations from structural identity,” in the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2017, pp. 855–864. [35] l. f. ribeiro, p. h. saverese, d. r. figueiredo, “struc2vec: learning node representations from structural identity” in the acm sigkdd international conference on knowledge discovery and data mining, pp. (英語)
訳抜け防止モード: 855–864. [35 ] L. F. Ribeiro, P. H. Saverese, D. R. Figueiredo, “struc2vec : Learning node representations from structure identity” ACM SIGKDD International Conference on Knowledge Discovery and Data Mining に参加して 2017年、p。
0.81
385–394. [36] W. Hamilton, Z. Ying, and J. Leskovec, “Inductive representation learning on large graphs,” in 385–394. W. Hamilton, Z. Ying, and J. Leskovec, “Inductive representation learning on large graphs”. 0.73
Advances in Neural Information Processing Systems, 2017. ニューラル情報処理システム(2017年)の進歩 0.72
[37] K. Henderson, B. Gallagher, T. Eliassi-Rad, H. Tong, S. Basu, L. Akoglu, D. Koutra, C. Faloutsos, and L. Li, “Rolx: structural role extraction & mining in large graphs,” in the ACM SIGKDD international conference on Knowledge discovery and data mining, 2012, pp. K. Henderson, B. Gallagher, T. Eliassi-Rad, H. Tong, S. Basu, L. Akoglu, D. Koutra, C. Faloutsos, and L. Li, “Rolx: Structure role extract and mining in large graphs” in ACM SIGKDD International conference on Knowledge discovery and data mining, 2012 pp. pp. 0.90
1231–1239. 1231–1239. 0.71
[38] C. Donnat, M. Zitnik, D. Hallac, and J. Leskovec, “Learning structural node embeddings via diffusion wavelets,” in the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2018, pp. [38] c. donnat, m. zitnik, d. hallac, j. leskovec, “learning structural node embeddeds via diffusion wavelets” in the acm sigkdd international conference on knowledge discovery & data mining, 2018, pp。 0.74
1320–1329. 1320–1329. 0.71
[39] R. Linsker, “Self-organization in a perceptual network,” Computer, vol. 39] R. Linsker, “Self-organization in a perceptual network”, Computer, vol. 0.88
21, no. 3, pp. 105–117, 21だ 3、p。 105–117, 0.58
1988. 12 1988. 12 0.85
英語(論文から抽出)日本語訳スコア
[40] M. Tschannen, J. Djolonga, P. K. Rubenstein, S. Gelly, and M. Lucic, “On mutual information maximization for representation learning,” in International Conference on Learning Representations, 2020. M. Tschannen, J. Djolonga, P. K. Rubenstein, S. Gelly, M. Lucic, “On mutual information maximization for representation learning” in International Conference on Learning Representations, 2020。 0.80
[41] N. Tishby, F. C. Pereira, and W. Bialek, “The information bottleneck method,” arXiv preprint 41] N. Tishby, F. C. Pereira, W. Bialek, “The information bottleneck method, arXiv preprint 0.85
physics/0004057, 2000. 物理学/0004057、2000年。 0.56
[42] N. Tishby and N. Zaslavsky, “Deep learning and the information bottleneck principle,” in 2015 42] n. tishby氏とn. zaslavsky氏の2015年の“deep learning and the information bottleneck principle” 0.85
IEEE Information Theory Workshop (ITW). IEEE情報理論ワークショップ (ITW)。 0.72
IEEE, 2015. 2015年、IEEE。 0.69
[43] Z. Goldfeld and Y. Polyanskiy, “The information bottleneck problem and its applications in 43] Z. Goldfeld, Y. Polyanskiy, “The information bottleneck problem and its applications in its application” 0.90
machine learning,” IEEE Journal on Selected Areas in Information Theory, 2020. IEEE Journal on Selected Areas in Information Theory, 2020。 0.53
[44] A. A. Alemi, I. Fischer, J. V. Dillon, and K. Murphy, “Deep variational information bottleneck,” [44]a。 A. Alemi, I. Fischer, J. V. Dillon, K. Murphy, “Deep variational information bottleneck”。 0.81
arXiv preprint arXiv:1612.00410, 2016. arXiv preprint arXiv:1612.00410, 2016 0.81
[45] X. B. Peng, A. Kanazawa, S. Toyer, P. Abbeel, and S. Levine, “Variational discriminator bottleneck: Improving imitation learning, inverse rl, and gans by constraining information flow,” arXiv preprint arXiv:1810.00821, 2018. [45] X。 B. Peng, A. Kanazawa, S. Toyer, P. Abbeel, S. Levine, “Variational discriminator bottleneck: Improving mimicion learning, inverse rl, and gans by constraining information flow” arXiv preprint arXiv:1810.00821, 2018”。 0.86
[46] I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, and A. Lerchner, “beta-vae: Learning basic visual concepts with a constrained variational framework.” in International Conference on Learning Representations, 2017. 946] I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, A. Lerchner, “Beta-vae: Learning basic visual concepts with a constrained variational framework”. International Conference on Learning Representations, 2017 0.90
[47] T. Wu, H. Ren, P. Li, and J. Leskovec, “Graph information bottleneck,” in Advances in Neural 神経の進歩における[47]t. wu, h. ren, p. li, j. leskovec, 「グラフ情報ボトルネック」
訳抜け防止モード: [47 ]T.Wu,H.Ren,P.Li, とJ. Leskovec, “Graph information bottleneck , ” in Advances in Neural
0.91
Information Processing Systems, 2020. 情報処理システム、2020年。 0.83
[48] J. Yu, T. Xu, Y. Rong, Y. Bian, J. Huang, and R. He, “Recognizing predictive substructures with subgraph information bottleneck,” International Conference on Learning Representations, 2021. J. Yu, T. Xu, Y. Rong, Y. Bian, J. Huang, R. He, “Recognizing predictive substructures with subgraph information bottleneck”, International Conference on Learning Representations, 2021 0.79
for quantum chemistry,” in International Conference on Machine Learning. と、International Conference on Machine Learningで発表した。 0.52
[49] J. Gilmer, S. S. Schoenholz, P. F. Riley, O. Vinyals, and G. E. Dahl, “Neural message passing JMLR. J. Gilmer, S. S. Schoenholz, P. F. Riley, O. Vinyals, G. E. Dahl, “Neural message passing JMLR.”。 0.90
org, 2017. [50] T. M. Cover and J. 2017年。 [50]T.M. CoverとJ. 0.68
A. Thomas, Elements of Information Theory. A. Thomas, Elements of Information Theory (英語) 0.75
John Wiley & Sons, 2012. ジョン・ワイリー&サンズ、2012年。 0.56
[51] B. Weisfeiler and A. Leman, “A reduction of a graph to a canonical form and an algebra arising B. Weisfeiler and A. Leman, “A reduction of a graph to a canonical form and an algebra a springing. 0.81
during this reduction,” Nauchno-Technicheska ya Informatsia, 1968. とNauchno-Technicheska ya Informatsiaは1968年に発表した。 0.53
[52] W. Hu, M. Fey, M. Zitnik, Y. Dong, H. Ren, B. Liu, M. Catasta, and J. Leskovec, “Open graph benchmark: Datasets for machine learning on graphs,” arXiv preprint arXiv:2005.00687, 2020. W. Hu, M. Fey, M. Zitnik, Y. Dong, H. Ren, B. Liu, M. Catasta, J. Leskovec, “Open graph benchmark: Datasets for machine learning on graphs”, arXiv preprint arXiv:2005.00687, 2020. 0.96
[53] D. Duvenaud, D. Maclaurin, J. Aguilera-Iparraguirr e, R. Gómez-Bombarelli, T. Hirzel, A. Aspuru-Guzik, and R. P. Adams, “Convolutional networks on graphs for learning molecular fingerprints,” Advances in Neural Information Processing Systems, vol. D. Duvenaud, D. Maclaurin, J. Aguilera-Iparraguirr e, R. Gómez-Bombarelli, T. Hirzel, A. Aspuru-Guzik, R. P. Adams, “Convolutional network on graphs for learning molecular fingerprints”, Advances in Neural Information Processing Systems, Vol. 0.96
2015, pp. 2224–2232, 2015. 2015年、p。 2224–2232, 2015. 0.79
[54] E. N. Gilbert, “Random graphs,” The Annals of Mathematical Statistics, vol. The Annals of Mathematical Statistics, vol.[54] E. N. Gilbert, “Random graphs”. The Annals of Mathematical Statistics. 0.83
30, no. 4, pp. 30だ 4, pp。 0.58
1141–1144, 1959. 1141–1144, 1959. 0.84
[55] P. Erd˝os and A. Rényi, “On random graphs i.” Publ. [55]P・エルド・オースとA・レニイ、"On random graphs i." Publ。 0.70
Math. Debrecen, vol. 数学。 Debrecen, vol. 0.80
6, pp. 290–297, 1959. 6, pp。 290–297, 1959. 0.82
[56] C. J. Maddison, A. Mnih, and Y. W. Teh, “The concrete distribution: A continuous relaxation of C. J. Maddison, A. Mnih, Y. W. Teh, “The concrete distribution: A Continuous relaxation of A continuous relaxation. 0.81
discrete random variables,” in International Conference on Learning Representations, 2017. 離散確率変数」は、2017年の国際学習表現会議(international conference on learning representations)で発表された。 0.47
[57] E. Jang, S. Gu, and B. Poole, “Categorical reparameterization with gumbel-softmax,” in [57] e. jang, s. gu, b. poole, “categorical reparameterization with gumbel-softmax” in 0.86
International Conference on Learning Representations, 2017. 2017年、国際学習表象会議に参加。 0.77
[58] A. v. d. Oord, Y. Li, and O. Vinyals, “Representation learning with contrastive predictive coding,” 58] A. v. Oord, Y. Li, and O. Vinyals, “Representation learning with contrastive predictive coding” 0.85
arXiv preprint arXiv:1807.03748, 2018. arXiv preprint arXiv:1807.03748, 2018 0.79
[59] Y. Tian, D. Krishnan, and P. Isola, “Contrastive multiview coding,” arXiv preprint Y. Tian, D. Krishnan, P. Isola, “Contrastive multiview coding” arXiv preprint 0.73
arXiv:1906.05849, 2019. arXiv:1906.05849, 2019 0.71
[60] B. Poole, S. Ozair, A. [60]B. Poole, S. Ozair, A。 0.93
Van Den Oord, A. Alemi, and G. Tucker, “On variational bounds of Van Den Oord, A. Alemi, G. Tucker 「変分境界について」 0.80
mutual information,” in International Conference on Machine Learning, 2019. 相互情報”は、2019年のinternational conference on machine learningで発表された。 0.65
[61] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple framework for contrastive learning of visual representations,” in International Conference on Machine Learning. 機械学習に関する国際会議において,[61] t. chen, s. kornblith, m. norouzi, g. hinton, “a simple framework for contrastive learning of visual representations” が開催された。 0.81
PMLR, 2020, pp. PMLR, 2020, pp。 0.81
1597–1607. 1597–1607. 0.71
[62] S. Becker and G. E. Hinton, “Self-organizing neural network that discovers surfaces in random- S. Becker and G. E. Hinton, “ランダムな表面を検出する自己組織化ニューラルネットワーク” 0.79
dot stereograms,” Nature, vol. とnature誌は書いている。 0.37
355, no. 6356, pp. 355、ノー。 6356, pp。 0.78
161–163, 1992. 161–163, 1992. 0.84
13 13 0.85
英語(論文から抽出)日本語訳スコア
[63] O. Henaff, “Data-efficient image recognition with contrastive predictive coding,” in International O. Henaff, “Data- efficient image recognition with contrastive predictive coding” in International 0.71
Conference on Machine Learning. 機械学習に関する会議。 0.86
PMLR, 2020, pp. PMLR, 2020, pp。 0.81
4182–4192. 4182–4192. 0.71
[64] R. D. Hjelm, A. Fedorov, S. Lavoie-Marchildon, K. Grewal, P. Bachman, A. Trischler, and Y. Bengio, “Learning deep representations by mutual information estimation and maximization,” in International Conference on Learning Representations, 2019. 64] r. d. hjelm, a. fedorov, s. lavoie-marchildon, k. grewal, p. bachman, a. trischler, y. bengio, “learning deep representations by mutual information estimation and maximization” in international conference on learning representations, 2019” (英語) 0.75
[65] T. Chen, S. Kornblith, K. Swersky, M. Norouzi, and G. Hinton, “Big self-supervised models are [65]T. Chen, S. Kornblith, K. Swersky, M. Norouzi, G. Hinton, “大きな自己教師型モデルは、 0.82
strong semi-supervised learners,” arXiv preprint arXiv:2006.10029, 2020. とarXiv preprint arXiv:2006.10029, 2020。 0.70
[66] P. Veliˇckovi´c, W. Fedus, W. L. Hamilton, P. Liò, Y. Bengio, and R. D. Hjelm, “Deep graph [66]P.ヴェリシュコヴィ ́c, W. Fedus, W. L. Hamilton, P. Liu, Y. Bengio, R. D. Hjelm, “Deep graph” 0.79
infomax,” arXiv preprint arXiv:1809.10341, 2018. arXiv preprint arXiv:1809.10341, 2018。 0.86
[67] Z. Peng, W. Huang, M. Luo, Q. Zheng, Y. Rong, T. Xu, and J. Huang, “Graph representation learning via graphical mutual information maximization,” in Proceedings of The Web Conference 2020, 2020, pp. 967] Z. Peng, W. Huang, M. Luo, Q. Zheng, Y. Rong, T. Xu, J. Huang, “Graph representation learning via graphical mutual information maximization” in Proceedings of The Web Conference 2020, 2020, pp。 0.87
259–270. [68] Y. Jiao, Y. Xiong, J. Zhang, Y. Zhang, T. Zhang, and Y. Zhu, “Sub-graph contrast for scalable 259–270. [68]y.jiao,y.xiong,j.zha ng,y.zhang,t.zhang,y .zhu,“スケーラブルなサブグラフコントラスト”
訳抜け防止モード: 259–270. [68 ]Y.Jiao,Y.Xiong,J.Zha ng, Y. Zhang , T. Zhang , Y. Zhu は次のように述べている。
0.74
self-supervised graph representation learning,” arXiv preprint arXiv:2009.10273, 2020. arXiv preprint arXiv:2009.10273, 2020. 0.59
[69] Y. Tian, C. Sun, B. Poole, D. Krishnan, C. Schmid, and P. Isola, “What makes for good views 69]Y. Tian, C. Sun, B. Poole, D. Krishnan, C. Schmid, P. Isola, “What makes for good view” 0.93
for contrastive learning?” in Advances in Neural Information Processing Systems, 2020. 対照的な学習のために?」神経情報処理システムの進歩、2020年。 0.75
[70] K. Xu, W. Hu, J. Leskovec, and S. Jegelka, “How powerful are graph neural networks?” in 70] k. xu, w. hu, j. leskovec, s. jegelka, “グラフニューラルネットワークはどのくらい強力か?
訳抜け防止モード: [70 ]K.Xu, W. Hu, J. Leskovec, そしてS. Jegelkaは、“グラフニューラルネットワークはどのくらい強力か?
0.77
International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019参加。 0.87
[71] C. Morris, N. M. Kriege, F. Bause, K. Kersting, P. Mutzel, and M. Neumann, “Tudataset: A collection of benchmark datasets for learning with graphs,” in ICML 2020 Workshop on Graph Representation Learning and Beyond (GRL+ 2020), 2020. C. Morris, N. M. Kriege, F. Bause, K. Kersting, P. Mutzel, M. Neumann, “Tudataset: A collection of benchmark datasets for learning with graphs” in ICML 2020 Workshop on Graph Representation Learning and Beyond (GRL+ 2020), 2020。 0.84
[Online]. Available: www.graphlearning.io [オンライン] 提供: www.graphlearning.io 0.62
[72] V. P. Dwivedi, C. K. Joshi, T. Laurent, Y. Bengio, and X. Bresson, “Benchmarking graph neural V. P. Dwivedi, C. K. Joshi, T. Laurent, Y. Bengio, X. Bresson, “Benchmarking graph neural” 0.89
networks,” arXiv preprint arXiv:2003.00982, 2020. arXiv preprint arXiv:2003.00982, 2020。 0.86
[73] N. M. Kriege, F. D. Johansson, and C. Morris, “A survey on graph kernels,” Applied Network 73] N. M. Kriege, F. D. Johansson, C. Morris, “A survey on graph kernels” Applied Network 0.87
Science, vol. 5, no. 科学、科学。 5位はノー。 0.69
1, pp. 1–42, 2020. 1、p。 1–42, 2020. 0.74
[74] P. Yanardag and S. Vishwanathan, “Deep graph kernels,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. P. Yanardag, S. Vishwanathan, “Deep graph kernels” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining。 0.74
ACM, 2015, pp. acm、2015年、p。 0.55
1365–1374. 1365–1374. 0.71
[75] N. Shervashidze, P. Schweitzer, E. J. v. Leeuwen, K. Mehlhorn, and K. M. Borgwardt, “Weisfeiler-lehman graph kernels,” Journal of Machine Learning Research, vol. Journal of Machine Learning Research, vol.[75] N. Shervashidze, P. Schweitzer, E. J. v. Leeuwen, K. Mehlhorn, K. M. Borgwardt, “Weisfeiler-Lehman graph kernels”。 0.90
12, no. Sep, pp. 2539–2561, 2011. 12だ は、p。 2539–2561, 2011. 0.55
[76] A. Narayanan, M. Chandramohan, R. Venkatesan, L. Chen, Y. Liu, and S. Jaiswal, “graph2vec: A. Narayanan, M. Chandramohan, R. Venkatesan, L. Chen, Y. Liu, and S. Jaiswal, “graph2vec:” 0.89
Learning distributed representations of graphs,” arXiv preprint arXiv:1707.05005, 2017. とarXiv preprint arXiv:1707.05005, 2017。 0.57
[77] B. Adhikari, Y. Zhang, N. Ramakrishnan, and B. [77] b. adhikari, y. zhang, n. ramakrishnan, b. 0.87
A. Prakash, “Sub2vec: Feature learning for subgraphs,” in Pacific-Asia Conference on Knowledge Discovery and Data Mining. A. Prakash, “Sub2vec: Feature Learning for Subgraphs”. Pacific-Asia Conference on Knowledge Discovery and Data Mining. (英語) 0.83
Springer, 2018, pp. スプリンガー、2018年、p。 0.40
170–182. [78] T. M. Cover, Elements of information theory. 170–182. [78]T.M. Cover, Elements of Information theory 0.76
[79] L. Babai, “Groups, graphs, algorithms: The graph isomorphism problem,” in Proc. [79] L. Babai, “Groups, graphs, algorithm: the graph isomorphism problem” in Proc. 0.85
ICM, vol. 3. ICM、Vol。 3. 0.78
John Wiley & Sons, 1999. ジョン・ワイリー&サンズ、1999年。 0.65
World Scientific, 2018, pp. 世界科学誌、2018年、p。 0.63
3303–3320. 3303–3320. 0.71
[80] H. A. Helfgott, J. Bajpai, and D. Dona, “Graph isomorphisms in quasi-polynomial time,” arXiv 80] h. a. helfgott, j. bajpai, d. dona, “graph isomorphisms in quasi-polynomial time” arxiv 0.82
preprint arXiv:1710.04574, 2017. arXiv:1710.04574, 2017 0.73
[81] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay, “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, vol. F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay, “Scikit-learn: Machine Learning in Python”, Journal of Machine Learning Research, vol. 0.97
12, pp. 2825–2830, 2011. 12、p。 2825–2830, 2011. 0.75
[82] C. Zhu, R. H. Byrd, P. Lu, and J. Nocedal, “Algorithm 778: L-bfgs-b: Fortran subroutines for large-scale bound-constrained optimization,” ACM Transactions on Mathematical Software (TOMS), vol. 82] c. zhu, r. h. byrd, p. lu, j. nocedal, “algorithm 778: l-bfgs-b: fortran subroutines for-scale bound-constrained optimization”. acm transactions on mathematical software (toms), vol. 0.83
23, no. 4, pp. 23歳。 4, pp。 0.64
550–560, 1997. 550–560, 1997. 0.84
[83] R.-E. Fan, K.-W. Chang, C.-J. [83]R-E。 Fan, K.-W. Chang, C.-J 0.76
Hsieh, X.-R. Wang, and C.-J. Hsieh, X.-R. Wang, C.-J 0.81
Lin, “Liblinear: A library for large Lin, “Liblinear: a library for large” 0.92
linear classification,” Journal of Machine Learning Research, vol. journal of machine learning research, vol. 線形分類。 0.66
9, pp. 1871–1874, 2008. 9、p。 1871–1874, 2008. 0.75
14 14 0.85
英語(論文から抽出)日本語訳スコア
A Summary of the Appendix appendix (複数形 appendixs) 0.65
In the appendix, we provide the detailed proof of the Theorem 1 (Sec. 付録では、定理1(Sec)の詳細な証明を提供する。 0.57
B), a review of WL tests (Sec. B), WL テストのレビュー (Sec。 0.62
C), the detailed algorithmic format of our instantiation of AD-GCL (Sec. c) ad-gcl (sec.c) のインスタンス化の詳細なアルゴリズム形式。 0.73
D), the summary of datasets (Sec. d) データセット(sec)の概要。 0.62
E), more regularization hyperparameter analysis (Sec. e) 以上の正規化ハイパーパラメータ解析(sec。 0.80
F), detailed experimental settings and complete evaluation results (Sec. F), 詳細な実験条件と完全な評価結果(Sec。 0.75
G), computing resources (Sec. G),計算資源(Sec。 0.63
I) and discussion on broader impacts (Sec.H). i)より広範な影響に関する議論(sec.h) 0.75
B Proof of Theorem 1 We repeat Theorem 1 as follows. b 定理の証明 1 定理 1 を次のように繰り返す。 0.70
Theorem 2. Suppose the encoder f is implemented by a GNN as powerful as the 1-WL test. 定理2。 エンコーダfを1-WLテストと同じくらい強力なGNNで実装する。 0.62
Suppose G is a countable space and thus G(cid:48) is a countable space. G を可算空間とし、したがって G(cid:48) を可算空間とする。 0.82
Then, the optimal solution (f∗, T ∗) to AD-GCL satisfies, letting T (cid:48)∗(G(cid:48)) = EG∼PG [T ∗(G)|G ∼= G(cid:48)], 1. そして、最適解 (f∗, T ∗) と AD-GCL は満足し、T (cid:48)∗(G(cid:48)) = EG PG [T ∗(G)|G > = G(cid:48)], 1 を満足する。 0.87
I(f∗(t∗(G)); G| Y ) ≤ minT∈T I(t(cid:48)(G(cid:48 )); G(cid:48))− I(t(cid:48)∗(G(cid:48)); Y ), where t∗(G) ∼ T ∗(G), t(cid:48)(G(cid:48)) ∼ I(f∗(t∗(G)); G| Y ) ≤ minTåT I(t(cid:48)(G(cid:48 )); G(cid:48))− I(t(cid:48)∗(G(cid:48)); Y ) ここで t∗(G) > T ∗(G) > t(cid:48)(G(cid:48)) > 0.84
T (cid:48)(G(cid:48)), t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)), (G, Y ) ∼ PG×Y and (G(cid:48), Y ) ∼ PG(cid:48)×Y. T (cid:48)(G(cid:48)), t(cid:48)∗(G(cid:48)) > T (cid:48)∗(G(cid:48)), (G, Y) > PG×Y, (G(cid:48), Y) > PG(cid:48)×Y。 0.90
2. I(f∗(G); Y ) ≥ I(f∗(t(cid:48)∗(G(cid:48))); Y ) = I(t(cid:48)∗(G(cid:48)); Y ), where t∗(G) ∼ T ∗(G), t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)), 2. I(f∗(G); Y ) ≥ I(f∗(t(cid:48)∗(G(cid:48))); Y ) = I(t(cid:48)∗(G(cid:48)); Y ) ここで t∗(G) > T ∗(G), t(cid:48)∗(G(cid:48)) > T(cid:48)∗(G(cid:48))) 0.84
(G, Y ) ∼ PG×Y and (G(cid:48), Y ) ∼ PG(cid:48)×Y. (g, y ) pg×y と (g(cid:48, y ) は pg(cid:48)×y である。 0.76
Proof. Because G and G(cid:48) are countable, PG and PG(cid:48) are defined over countable sets and thus discrete distribution. 証明。 g と g(cid:48) は可算であるため、pg と pg(cid:48) は可算集合上で定義される。 0.70
Later we may call a function z(·) can distinguish two graphs G1, G2 if z(G1) (cid:54)= z(G2). 後に、函数 z(·) が 2 つのグラフ g1, g2 を区別できる(z(g1) (cid:54)= z(g2))。 0.76
Moreover, for notational simplicity, we consider the following definition. さらに、表記の単純さについて、以下の定義を考察する。 0.62
Because f∗ is as powerful ∼= G2, f∗(G1) = f∗(G2). f∗ = G2 であるから、f∗(G1) = f∗(G2) である。 0.75
We may as the 1-WL test. 1-WLテストとしてもよいでしょう。 0.60
Then, for any two graphs G1, G2 ∈ G, G1 define a mapping over G(cid:48), also denoted by f∗ which simply satisfies f∗(G(cid:48)) :(cid:44) f∗(G), where G ∼= G(cid:48), and G ∈ G and G(cid:48) ∈ G(cid:48). このとき、任意の2つのグラフ G1, G2 ∈ G に対して、G(cid:48) 上の写像は f∗(G(cid:48)) :(cid:44) f∗(G) を単に満足する f∗(G) で表される。
訳抜け防止モード: そして、任意の2つのグラフ G1, G2 ∈ G に対して、 G1 は G(cid:48 ) 上の写像を定義するが、f∗ は f∗(G(cid:48 ) ) : ( cid:44 ) f∗(G ) ここで、G は G (cid:48 ) と G ∈ G (cid:48 ) ∈ G (cid:48 ) である。
0.85
We first prove the statement 1, i.e., the upper bound. まず最初に、ステートメント 1、すなわち上界を証明します。 0.69
We have the following inequality: Recall that T (cid:48)∗(G(cid:48)) = EG∼PG [T ∗(G)|G ∼= G(cid:48)] and t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)). T (cid:48)∗(G(cid:48)) = EG PG [T ∗(G)|G )= G(cid:48)] と t(cid:48)∗(G(cid:48)) は T (cid:48)∗(G(cid:48)) である。
訳抜け防止モード: 以下の不等式がある: T ( cid:48)∗(G(cid:48 ) ) = EG PG [ T ∗(G)|G > = G(cid:48 ) ] t(cid:48)∗(G(cid:48 ) ) T ( cid:48)∗(G(cid:48 ) ) である。
0.87
I(t(cid:48)∗(G(cid:48)); G(cid:48)) = I(t(cid:48)∗(G(cid:48)); (G(cid:48), Y )) − I(t(cid:48)∗(G(cid:48)); Y |G(cid:48))] I(t(cid:48)∗(G(cid:48)); G(cid:48)) = I(t(cid:48)∗(G(cid:48)); (G(cid:48, Y )) − I(t(cid:48)∗(G(cid:48)); Y |G(cid:48))] 0.90
(a) = I(t(cid:48)∗(G(cid:48)); (G(cid:48), Y )) = I(t(cid:48)∗(G(cid:48)); Y ) + I(t(cid:48)∗(G(cid:48)); G(cid:48)|Y ) (b)≥ I(f∗(t(cid:48)∗(G(cid:48))); G(cid:48)|Y ) + I(t(cid:48)∗(G(cid:48)); Y ) (a) I(t(cid:48)∗(G(cid:48)); (G(cid:48), Y )) = I(t(cid:48)∗(G(cid:48)); Y ) + I(t(cid:48)∗(G(cid:48)); G(cid:48)|Y ) (b)≥ I(f∗(t(cid:48)∗(G(cid:48))); G(cid:48)|Y ) + I(cid:48)∗(G(cid:48)); Y ) 0.86
(10) where (a) is because t(cid:48)∗(G(cid:48)) ⊥G(cid:48) Y , (b) is because the data processing inequality [78]. (10) t(cid:48)∗(G(cid:48)) >G(cid:48) Y , (b) はデータ処理の不等式 [78] のためである。 0.80
Moreover, because f∗ could be as powerful as the 1-WL test and thus could be injective in G(cid:48) a.e. さらに、f∗ は 1-WL テストと同じくらい強力であり、したがって G(cid:48) a.e で注入することができる。 0.64
with respect to the measure PG(cid:48). 測度pg(cid:48)に関して 0.53
Then, for any GDA T (·) and T (cid:48)(G(cid:48)) = EG∼PG [T (G)|G ∼= G(cid:48)], I(t(cid:48)(G(cid:48 )); G(cid:48)) = I(f∗(t(cid:48)(G(cid:48) )); f∗(G(cid:48))) = I(f∗(t(G)); f∗(G)), このとき、任意の GDA T (·) および T (cid:48)(G(cid:48)) = EG PG [T (G)|G >= G(cid:48)], I(t(cid:48)(G(cid:48 )); G(cid:48)) = I(f∗(t(cid:48)(G(cid:48) )); f∗(G(cid:48))) = I(f∗(t(G)); f∗(G))) に対して、 0.97
(11) where t(cid:48)(G(cid:48)) ∼ T (cid:48)(G(cid:48)), t(G) ∼ T (G). (11) ここで t(cid:48)(G(cid:48)) は T(cid:48)(G(cid:48)) , t(G) は T(G) である。 0.87
Here, the second equality is because f∗(G) = f∗(G(cid:48)) and T (cid:48)(G(cid:48)) = EG∼PG [T (G)|G ∼= G(cid:48)]. ここで第二の等式は f∗(G) = f∗(G(cid:48)) と T (cid:48)(G(cid:48)) = EG PG [T(G)|G > = G(cid:48)] である。 0.84
Since T ∗ = arg minT∈T I(f (t∗(G)); f (G)) where t∗(G) ∼ T ∗(G) and Eq 11, we have I(t(cid:48)∗(G(cid:48)); G(cid:48)) = arg min T ∗ = arg minT∂T I(f (t∗(G)); f (G)) ここで t∗(G) と T ∗(G) と Eq 11 は I(t(cid:48)∗(G(cid:48)); G(cid:48)) = arg min となる。 0.78
I(t(cid:48)(G(cid:48 )); G(cid:48)), where t(cid:48)(G(cid:48)) ∼ T (cid:48)(G(cid:48)) = EG∼PG [T (G)|G ∼= G(cid:48)]. I(t(cid:48)(G(cid:48 )); G(cid:48)) ここで t(cid:48)(G(cid:48)) は T (cid:48)(G(cid:48)) = EG PG [T(G)|G > = G(cid:48)] である。 0.84
Again, because by definition f∗ = arg maxf I(f (G); f (t∗(G))) and f∗ could be as powerful as the 1WL test, its counterpart defined over G(cid:48), i.e., f (cid:63), must be injective over G(cid:48) ∩ Supp(EG(cid:48)∼PG(cid:48) [T (cid:48)∗(G(cid:48))]) a.e. また、定義により f∗ = arg maxf i(f(g); f (t∗(g))) と f∗ は 1wl 検定と同等の強力であるので、g(cid:48) 上で定義される対応する f(cid:63) は g(cid:48) 上の単射でなければならない。
訳抜け防止モード: f∗ = arg maxf I(f ( G ) ; f ( t∗(G ) ) ) . そして f∗ は 1WL テストと同じくらい強力になり得る。 f ( cid:63 ) {\displaystyle f(cid:48)} は G (cid:48 ) > Supp(EG(cid:48) =PG(cid:48 ) [ T ( cid:48)∗(G(cid:48 ) ) ) a.e で注入しなければならない。
0.85
with respect to the measure PG(cid:48) to achieve such mutual information maximization. このような相互情報の最大化を達成するためのPG(cid:48)について。 0.60
Here, Supp(µ) defines the set where µ has non-zero measure. ここで、spp(μ) は μ が 0 でない測度を持つ集合を定義する。 0.70
Because of the definition of T (cid:48)∗(G(cid:48)) = EG∼PG [T ∗(G)|G ∼= G(cid:48)], T (cid:48)∗(G(cid:48)) = EG PG [T ∗(G)|G > = G(cid:48)] の定義のためである。 0.89
G(cid:48) ∩ Supp(EG(cid:48)∼PG(cid:48) [T (cid:48)∗(G(cid:48))]) = G(cid:48) ∩ Supp(EG∼PG [T ∗(G)]). G(cid:48) > Supp(EG(cid:48) →PG(cid:48) [T(cid:48)∗(G(cid:48))]) = G(cid:48) > Supp(EG PG [T ∗(G)])。 0.86
15 T∈T (12) 15 tgpt (12) 0.69
英語(論文から抽出)日本語訳スコア
Therefore, f∗ is a.e. したがって、f∗ は a.e である。 0.52
injective over G(cid:48) ∩ Supp(EG∼PG [T ∗(G)]) and thus I(f∗(t(cid:48)∗(G(cid:48))); G(cid:48)|Y ) = I(f∗(t∗(G)); G(cid:48)|Y ), I(f∗(t(cid:48)∗(G(cid:48))); G(cid:48)|Y ) = I(f∗(t∗(G)); G(cid:48)|Y )
訳抜け防止モード: G(cid:48 ) > Supp(EG)PG [ T ∗(G ) ] したがって、I(f∗(t(cid:48)∗(G(cid:48 ) ) ) ; G(cid:48)|Y ) = I(f∗(t∗(G ) ) ; G(cid:48)|Y )
0.87
(13) Moreover, as f∗ cannot cannot distinguish more graphs in G than G(cid:48) as the power of f∗ is limited by 1-WL test, thus, (13) さらに、f∗ は G(cid:48) よりも多くのグラフを区別できないので、f∗ のパワーは 1-WL テストによって制限される。 0.77
I(f∗(t∗(G)); G(cid:48)|Y ) = I(f∗(t∗(G)); G|Y ). I(f∗(t∗(G)); G(cid:48)|Y ) = I(f∗(t∗(G)); G|Y )。 0.81
(14) Plugging Eqs.12,13,14 into Eq 10, we achieve (14) eqs.12,13,14をeq 10に差し込むと 0.73
I(f∗(t∗(G)); G|Y ) ≤ arg min I(f∗(t∗(G)); G|Y ) ≤ arg min 0.85
I(t(cid:48)(G(cid:48 )); G(cid:48)) − I(t(cid:48)∗(G(cid:48)); Y ) I(t(cid:48)(G(cid:48 )); G(cid:48)) − I(t(cid:48)∗(G(cid:48)); Y) 0.94
T∈T where t(cid:48)(G(cid:48)) ∼ T (cid:48)(G(cid:48)) = EG∼PG [T (G)|G ∼= G(cid:48)] and t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)) = EG∼PG [T ∗(G)|G ∼= G(cid:48)], which gives us the statement 1, which is the upper bound. tgpt ここで t(cid:48)(G(cid:48)) は T (cid:48)(G(cid:48)) = EG PG [T (G)|G の= G(cid:48)] と t(cid:48)∗(G(cid:48)) は T (cid:48)∗(G(cid:48)) = EG PG [T ∗(G)|G の= G(cid:48)] となる。 0.60
We next prove the statement 2, i.e., the lower bound. 次に、文2、すなわち下界を証明します。 0.57
Recall (T ∗, f∗) is the optimal solution to Eq 6 and t∗(·) denotes samples from T ∗(·). リコール (T ∗, f∗) は Eq 6 の最適解であり、t∗(·) は T ∗(·) のサンプルを表す。 0.60
Again, because f∗ = arg maxf I(f (G); f (t∗(G))), f∗ must be injective on G(cid:48) ∩ Supp(EG(cid:48)∼PG(cid:48) [T (cid:48)∗(G(cid:48))]) a.e. f∗ = arg maxf I(f (G); f (t∗(G))) であるから、f∗ は G(cid:48) > Supp(EG(cid:48) =PG(cid:48) [T(cid:48)∗(G(cid:48))]) a.e 上で射出されなければならない。 0.88
with respect to the measure PG(cid:48). 測度pg(cid:48)に関して 0.53
Given t(cid:48)∗(G(cid:48)), t(cid:48)∗(G(cid:48)) → f∗(t(cid:48)∗(G(cid:48))) is an injective deterministic mapping. t(cid:48)∗(g(cid:48)) が与えられたとき、t(cid:48)∗(g(cid:48)) → f∗(t(cid:48)∗(g(cid:48)) は単射決定論的写像である。 0.81
Therefore, for any random variable Q, したがって、任意の確率変数 q に対して 0.71
I(f∗(t(cid:48)∗(G(cid:48))); Q) = I(t(cid:48)∗(G(cid:48)); Q), where G(cid:48) ∼ PG(cid:48), t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)). I(f∗(t(cid:48)∗(G(cid:48))); Q) = I(t(cid:48)∗(G(cid:48)); Q) ここで G(cid:48) は PG(cid:48), t(cid:48)∗(G(cid:48)) は T(cid:48)∗(G(cid:48)) である。 0.92
Of course, we may set Q = Y . もちろん q = y とすることもある。 0.57
So, I(f∗(t(cid:48)∗(G(cid:48))); Y ) = I(t(cid:48)∗(G(cid:48)); Y ), where (G(cid:48), Y ) ∼ PG(cid:48)×Y , t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)). だから I(f∗(t(cid:48)∗(G(cid:48))); Y ) = I(t(cid:48)∗(G(cid:48)); Y ) ここで (G(cid:48), Y ) > PG(cid:48)×Y , t(cid:48)∗(G(cid:48)) > T(cid:48)∗(G(cid:48))。 0.77
(15) Because of the data processing inequality [78] and T (cid:48)∗(G(cid:48)) = EG∼PG [T ∗(G)|G ∼= G(cid:48)], we further have (15) データ処理の不等式 [78] と t (cid:48)∗(g(cid:48)) = eg\pg [t ∗(g)|g ]= g(cid:48)] のため、さらに有意である。 0.80
where (G(cid:48), Y ) ∼ PG(cid:48)×Y , (G, Y ) ∼ PG×Y , t(cid:48)∗(G(cid:48)) ∼ T (cid:48)∗(G(cid:48)), t∗(G) ∼ T ∗(G). ここで (G(cid:48, Y) は PG(cid:48)×Y , (G, Y) は PG×Y , t(cid:48)∗(G(cid:48)) は T(cid:48)∗(G(cid:48)), t∗(G) は T ∗(G) である。 0.89
Further because of the data processing inequality [78], さらにデータ処理の不平等[78]のために。 0.83
I(f∗(t∗(G)); Y ) ≥ I(f∗(t(cid:48)∗(G(cid:48))); Y ), I(f∗(t∗(G)); Y ) ≥ I(f∗(t(cid:48)∗(G(cid:48))); Y) 0.73
I(f∗(G); Y ) ≥ I(f∗(t∗(G)); Y ). I(f∗(G); Y ) ≥ I(f∗(t∗(G)); Y )。 0.68
(16) (17) Combining Eqs.15, 16, 17, we have (16) (17) eqs.15, 16, 17の組み合わせは 0.83
I(f∗(G); Y ) ≥ I(f∗(t∗(G)); Y ) ≥ I(f∗(t(cid:48)∗(G(cid:48))); Y ) = I(t(cid:48)∗(G(cid:48)); Y ), I(f∗(G); Y ) ≥ I(f∗(t∗(G)); Y ) ≥ I(f∗(t(cid:48)∗(G(cid:48))); Y ) = I(cid:48)∗(G(cid:48)); Y ) 0.75
which concludes the proof of the lower bound. これは下界の証明を 結論づけます 0.52
C A Brief Review of the Weisfeiler-Lehman (WL) Test c.weisfeiler-lehman( wl)試験の概要 0.64
Two graphs G1 and G2 are called to be isomorphic if there is a mapping between the nodes of the graphs such that their adjacencies are preserved. 2つのグラフ G1 と G2 が同型であるとは、グラフのノード間の写像がそれらの隣接が保存されるときに言う。 0.70
For a general class of graphs, without the knowledge of the mapping, determining if G1 and G2 are indeed isomorphic is challenging and there has been no known polynomial time algorithms utill now [79]. グラフの一般クラスでは、写像の知識がなければ、g1 と g2 が実際に同型であるかどうかを決定することは困難であり、現在 [79] を利用した多項式時間アルゴリズムは存在しない。
訳抜け防止モード: グラフの一般クラスに対しては、写像の知識がない。 G1 と G2 が実際に同型かどうかを決定する 困難で 多項式時間アルゴリズムは 存在していません [79 ]
0.79
The best algorithm till now has complexity 2O(log n)3 where n is the size of the graphs of interest [80]. これまで最良のアルゴリズムは複雑性 2o(log n)3 であり、ここで n は関心のあるグラフのサイズ [80] である。 0.85
The family of Weisfeiler-Lehman tests [51] (specifically the 1-WL test) offers a very efficient way perform graph isomorphism testing by generating canonical forms of graphs. Weisfeiler-Lehmanテスト[51](特に1-WLテスト)のファミリーは、グラフの正準形式を生成することによってグラフ同型テストを実行する非常に効率的な方法を提供する。 0.63
Specifically, the 1-WL test follows an iterative color refinement algorithm. 具体的には、1-WLテストは反復色補正アルゴリズムに従う。 0.60
Let, graph G = (V, E) and let C : V → C denote a coloring function that assigns each vertex v ∈ V a color Cv. グラフ G = (V, E) とし、C : V → C を各頂点 v ∈ V を色 Cv に割り当てる彩色関数とする。 0.78
Nodes with different features are associated with different colors. 異なる特徴を持つノードは異なる色に関連付けられる。 0.81
These colors constitute the initial colors C0 of the algorithm i.e. これらの色はアルゴリズムの初期色C0を構成する。 0.86
C0,v = Cv for every vertex v ∈ V . すべての頂点 v ∈ V に対して C0,v = Cv である。 0.71
Now, for each vertex v and each iteration i, the algorithm creates a new set of colors from the color Ci−1,v and the colors Ci−1,u of every vertex u that is adjacent to v. This multi-set of colors is then mapped to a new color (say using a unique hash). 現在、各頂点 v と各反復 i に対して、アルゴリズムは v に隣接する各頂点 u の色 Ci−1,v と色 Ci−1,u から新しい色の集合を生成する。
訳抜け防止モード: さて、各頂点 v と各反復 i に対して、アルゴリズムは、色 Ci−1,v から新しい色の集合を生成する。 そして全ての頂点 u の色 Ci−1,u は is adjacent to v. this multi- set of color 新しい色にマッピングされます ユニークなハッシュを使って言う)
0.86
Basically, the color refinement follows 基本的に色調は以下の通りである。 0.51
Ci,v ← Hash(Ci−1,v,{Ci−1,u|u∈Nv}), Ci,v > Hash(Ci−1,v,{Ci−1,u|u∂Nv}) 0.79
(18) 16 (18) 16 0.85
英語(論文から抽出)日本語訳スコア
where the above Hash function is an injective mapping. ここで、上記のハッシュ関数は射影写像である。 0.59
This iteration goes on until when the list of colors stabilises, i.e. この繰り返しは、色のリストが安定化するまで続く。 0.67
at some iteration N, no new colors are created. あるイテレーションNでは、新しい色は作られません。 0.74
The final set of colors serves as the the canonical form of a graph. 色の最終集合はグラフの正準形式として機能する。 0.73
Intuitively, if the canonical forms obtained by 1-WL test for two graphs are different, then the graphs are surely not isomorphic. 直観的には、2つのグラフに対する 1-WL テストによって得られる正準形式が異なるならば、グラフは確実に同型ではない。 0.58
But, it is possible for two non-isomorphic graphs to share a the same 1-WL canonical form. しかし、2つの非同型グラフは同じ1-WL標準形式を共有することが可能である。 0.67
Though the 1-WL test can test most of the non-isomorphic graphs, it will fail in some corner cases. 1-WLテストは非同型グラフのほとんどをテストすることができるが、いくつかのコーナーケースで失敗する。
訳抜け防止モード: 1-WLテストは非同型グラフのほとんどをテストすることができる。 コーナーのケースで 失敗する。
0.75
For example, it cannot distinguish regular graphs with the same node degrees and of the same sizes. 例えば、同じノード次数と同じ大きさの正則グラフを区別することはできない。 0.65
As GNNs share the same iterative procedure as the 1-WL test by comparing Eq 18 and Eq 1, GNNs are proved to be at most as powerful as the 1-WL test to distinguish isormorphic graphs [14, 15]. GNN は Eq 18 と Eq 1 を比較して 1-WL テストと同じ反復的手順を共有するので、GNN は同型グラフ [14, 15] を区別する 1-WL テストと同程度に強力であることが証明される。 0.74
However, GNNs with proper design may achieve the power of the 1-WL test [14] and thus the assumption in Theorem 1 is reasonable. しかし、適切な設計のGNNは1-WLテスト[14]のパワーを達成できるため、定理1の仮定は妥当である。 0.70
D The Training Algorithm for the Instantiation of AD-GCL D AD-GCLの確立のためのトレーニングアルゴリズム 0.88
Algorithm 1 describes the self-supervised training algorithm for AD-GCL with learnable edgedropping GDA. アルゴリズム1は学習可能なエッジドロップgdaを用いたad-gclの自己教師付きトレーニングアルゴリズムを記述する。 0.55
Note that augmenter TΦ(·) with parameters Φ is implemented as a GNN followed by an MLP to obtain the Bernoulli weights ωe. GNN として、さらに MLP で拡張子 T (·) が実装され、ベルヌーイ重み ωe が得られることに注意されたい。 0.50
E Summary of Datasets e データセットの概要 0.76
A wide variety of datasets from different domains for a range of graph property prediction tasks are used for our experiments. 実験では,さまざまな領域からのさまざまなデータセットを用いて,様々なグラフ特性の予測を行う。 0.86
Here, we summarize and point out the specific experiment setting for which they are used. ここでは、使用する特定の実験環境について要約し、指摘する。 0.65
• Table 5 shows the datasets for chemical molecular property prediction which are from Open Graph Benchmark (OGB) [52] and ZINC-10K [72]. 表5は,open graph benchmark (ogb) [52] とzn-10k [72] による化学分子特性予測のためのデータセットを示す。 0.83
These are used in the unsupervised learning setting for both classification and regression tasks. これらは分類と回帰タスクの両方で教師なしの学習設定で使用される。 0.68
We are the first one to considering using regression tasks and the corresponding datasets in the evaluation of self-supervised GNN. 我々は,自己教師型GNNの評価において回帰タスクとそれに対応するデータセットの利用を検討する最初の人物である。
訳抜け防止モード: 私たちは最初の一人です 自己教師付きGNNの評価における回帰タスクと対応するデータセットの使用を検討する。
0.61
• Table 6 shows the datasets which contain biochemical and social networks. 表6は生化学とソーシャルネットワークを含むデータセットを示す。 0.70
These are taken from the TU Benchmark Datasets [71]. これらはTUベンチマークデータセット[71]から取得します。 0.60
We use them for graph classification tasks in both unsupervised and semi-supervised learning settings. 教師なしおよび半教師なしの学習設定のグラフ分類タスクにそれらを使用する。 0.56
• Table 7 shows the datasets consisting of biological interactions and chemical molecules from [17]. 表7は、[17]の生物相互作用と化学分子からなるデータセットを示す。 0.80
These datasets are used for graph classification in the transfer learning setting. これらのデータセットは、転送学習設定のグラフ分類に使用される。 0.76
F Complete Results on Regularization Analysis F 正規化解析の完全結果 0.88
The main hyper-parameter for our method AD-GCL is the regularization strength λreg. AD-GCL法の主要なハイパーパラメータは正規化強度λregである。 0.71
Detailed sensitivity analysis is provided in Figures 3, 5 and 6. 詳細な感度分析は図3、5、6に示される。 0.79
For the method AD-GCL-OPT, we tune λreg over the validation set among {0.1, 0.3, 0.5, 1.0, 2.0, 5.0, 10.0}. AD-GCL-OPT 法では {0.1, 0.3, 0.5, 1.0, 2.0, 5.0, 10.0} の検証集合に対してλreg をチューニングする。
訳抜け防止モード: AD - GCL - OPT のメソッドでは {0.1, 0.3, 0.5, 1.0, 2.0, 5.0, 10.0 } .
0.68
For the ablation study, i.e. アブレーション研究、すなわち 0.38
NAD-GCL-OPT the random edge drop ratio is tuned over the validation set among {0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9}. nad-gcl-opt ランダムなエッジドロップ比は {0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9} の検証セット上で調整される。
訳抜け防止モード: NAD - GCL - OPT ランダムエッジドロップ比は { 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7 , 0.8 , 0.9 } .
0.70
F.1 Optimal regularization strength values F.1 最適正則化強度値 0.71
Table 8 shows the optimal λreg on the validation set that are used to report test performance in Tables 1 (both TOP and BOTTOM). 表8は、表1(TOPとBOTTOMの両方)でテストパフォーマンスを報告するために使用される検証セットの最適λregを示す。 0.85
F.2 Effects of regularization on regression tasks f.2 正規化が回帰課題に及ぼす影響 0.64
Subplots in the topmost row of Figure 5 shows the validation performance for different λreg’s in AD-GCL and random edge drop ratios in NAD-GCL for regression tasks. 図5の最上位列のサブプロットは、AD-GCLにおける異なるλregの検証性能と回帰タスクにおけるNAD-GCLにおけるランダムエッジドロップ比を示す。 0.73
These observations show an interesting phenomenon that is different from what we observe in classification tasks: for AD-GCL, small λreg (which in-turn lead to large expected edge drop ratio) results in better performance. これらの観測は、AD-GCLの場合、小さなλreg(これは大きなエッジドロップ比をもたらす)がより良い性能をもたらすという、私たちが分類タスクで観察するものとは異なる興味深い現象を示す。 0.72
A 17 A 17 0.85
英語(論文から抽出)日本語訳スコア
Algorithm 1: Training Learnable Edge-Dropping GDA under AD-GCL principle. Algorithm 1: Training Learnable Edge-Dropping GDA under AD-GCL principle (英語) 0.71
Input: Data {Gm ∼ G | m = 1, 2 . 入力: data {gm ] g | m = 1, 2 である。 0.83
. . M}; Encoder fΘ(·); Augmenter TΦ(·); Projection Head gΨ(·); Cosine Similarity sim(·) . . M ; M エンコーダ fθ(·); 拡張子 tφ(·); 投影ヘッド gψ(·); コサイン類似度 sim(·) 0.74
Hyper-Params :Edge-Dropping Regularization Strength λreg; learning rates α, β Output: Trained Encoder fΘ(·) 1 begin 2 Hyper-Params : Edge-Dropping Regularization Strength λreg; Learning rate α, β Output: Trained Encoder f'(·) 1 begin 2 0.93
for number of training epochs do エポックの訓練の数は 0.53
for sampled minibatch {Gn = (Vn, En) : n = 1, 2 . サンプル化されたminibatch {Gn = (Vn, En) : n = 1, 2 に対して。 0.74
. . N} do . . n} である 0.79
for n = 1 to N do n = 1 から N に対して 0.91
h1,n = fΘ(Gn) z1,n = gΨ(h1,n) t(Gn) ∼ TΦ(Gn) set pe,∀e ∈ En from t(Gn) h1,n = fθ(gn) z1,n = gψ(h1,n) t(gn) に対して、t(gn) から pe, e ∈ en を定める。 0.74
Rn =(cid:80) Rn =(cid:80) 0.88
pe/|En| e∈En pe/|En| 絵文 0.33
h2,n = fΘ(t(Gn)); z1,n = gΨ(h2,n) h2,n = fθ(t(gn)); z1,n = gψ(h2,n) 0.94
(cid:80)N exp(sim(z1,n,z2,n)) (cid:80)n exp(sim(z1,n,z2,n)) 0.89
n(cid:48)=1,n(cid:48)(cid:54)=n exp (sim(z1,n,z2,n(cid:4 8))) n(cid:48)=1,n(cid:48)(cid:54)=n exp (sim(z1,n,z2,n(cid:4 8))) 0.85
(cid:80)N n=1 Ln (cid:80)N n=1 Rn (cid:80)N n=1 Ln (cid:80)N n=1 Rn 0.73
end define Ln = − log /* calculate NCE loss for minibatch L = 1 /* calculate regularization term for minibatch R = 1 /* update augmenter params via gradient ascent Φ ← Φ + α∇Φ(L − λreg ∗ R) /* update enocder & projection head 終端定義 ln = − log /* ミニバッチ l = 1 /* のセマンティクスロスを計算する ミニバッチ r = 1 /* 更新オーグメンダパラムの正規化項をグラデーション・アセント φ で計算し、 φ + α\ φ(l − λreg ∗ r) /* 更新エノケーダと投影ヘッドを合成する。 0.75
N N params via gradient descent N N 勾配降下によるパラム 0.79
Θ ← Θ − β∇Θ(L); Ψ ← Ψ − β∇Ψ(L) θ, θ, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β, β)。 0.23
end */ */ */ 終わり */ */ */ 0.82
*/ 3 4 5 6 */ 3 4 5 6 0.85
7 8 9 10 11 7 8 9 10 11 0.85
12 13 14 15 12 13 14 15 0.85
16 17 18 19 16 17 18 19 0.85
end return Encoder fΘ(·) end return エンコーダ fθ(·) 0.87
20 21 end similar trend can be observed even for NAD-GCL, where large random edge drop ratios results in better performance. 2021年末 NAD-GCLでも同様の傾向が見られ、これは大きなランダムなエッジドロップ比により性能が向上する。 0.60
However, AD-GCL is still uniformly better that NAD-GCL in that regard. しかし、AD-GCLはNAD-GCLよりも均一に優れている。 0.73
We reason that, regression tasks (different from classification tasks) are more sensitive to node level information rather than structural fingerprints and thus, the edge dropping GDA family might not be the most apt GDA family. したがって、回帰タスク(分類タスクとは異なる)は、構造指紋よりもノードレベルの情報に敏感であるため、エッジダウンGDAファミリーは、最も適したGDAファミリーではないかもしれない。 0.75
Modelling different learnable GDA families is left for future work and these observations motivate such steps. 異なる学習可能なgdaファミリーのモデリングは、将来の作業のために残され、これらの観察は、そのようなステップを動機付ける。
訳抜け防止モード: 学習可能なGDAファミリーのモデリングは今後の課題 これらの観察はそのようなステップを動機付けます
0.62
F.3 Effects of regularization on edge-drop ratio as complete results in Figure 3 setting. f.3 図3設定におけるエッジドロップ比の正則化の影響 0.78
Figure 4 shows how different regularization strengths (λreg) affects the expected edge drop ratio for multiple datasets. 図4は、異なる正規化強度(λreg)が複数のデータセットの予測エッジドロップ比にどのように影響するかを示しています。 0.59
These results further provides us evidence that indeed, λreg and the expected edge drop ratio are inversely related in accordance with our design objective and thus provides us with a way of controlling the space of augmentations for our learnable edge dropping GDA. これらの結果はさらに、λreg と期待エッジドロップ比が、我々の設計目的に応じて逆関係であることの証明を与え、学習可能なエッジドロップ GDA に対する拡張の空間を制御する方法を提供する。 0.74
Figure 6 shows the complete validation set performance for different edge drop ratios. 図6は、異なるエッジドロップ比に対する完全な検証セットのパフォーマンスを示しています。 0.67
AD-GCL is compared to a non-adversarial random edge dropping GCL (NAD-GCL). AD-GCLは非逆乱エッジ降下GCL(NAD-GCL)と比較される。 0.73
We choose λreg’s that result 我々はλregのこの結果を選択する 0.76
18 18 0.85
英語(論文から抽出)日本語訳スコア
Figure 4: λreg v.s. 図4: λreg v.s 0.82
expected edge drop ratio EG[(cid:80) 予測エッジドロップ比EG[(cid:80) 0.73
e ωe/|E|] (measured at saddle point of Eq 8). e ωe/|E|] (Eq 8のサドル点で測定)。 0.72
Figure 5: Validation performance for graph regression v.s. 図5:グラフ回帰の検証性能 v.s. 0.90
edge drop ratio. Comparing AD-GCL and GCL with non-adversarial random edge dropping. エッジドロップ比。 ad-gclとgclと非逆ランダムエッジドロップの比較。 0.62
The markers on AD-GCL’s performance curves show the λreg used. AD-GCLのパフォーマンス曲線のマーカーは、λregが使われることを示している。 0.62
Note here that lower validation metric is better. ここでは、低い検証基準の方がよいことに注意してください。 0.42
Figure 6: Validation performance for graph classification v.s. 図6:グラフ分類の検証性能 v.s. 0.93
edge drop ratio. Comparing AD-GCL and GCL with non-adversarial random edge dropping. エッジドロップ比。 ad-gclとgclと非逆ランダムエッジドロップの比較。 0.62
The markers on AD-GCL’s performance curves show the λreg used. AD-GCLのパフォーマンス曲線のマーカーは、λregが使われることを示している。 0.62
Note here that higher validation metric is better. ここで注意すべきは、より高いバリデーションメトリックの方がよいことだ。 0.39
19 0.00.20.40.60.81.0Ex pected edge drop ratioogbg-molesologb g-mollipoogbg-molfre esolvZINC-10K0.00.20 .40.60.81.0Expected edge drop ratioogbg-molbaceogb g-molclintoxogbg-mol tox21ogbg-molsider0. 00.20.40.60.81.0Expe cted edge drop ratioREDDIT-BINARYRE DDIT-MULTI-5KIMDB-BI NARYIMDB-MULTI024681 0Reg. 19 0.00.20.40.60.81.0Ex pected edge drop ratioREDDIT-BINARYRE DDIT-MULTI-5KIMDB-BI NARYIMDB-MULTI024681 0Reg。 0.55
Strength ( reg )0.00.20.40.60.81.0E xpected edge drop ratioNCI10246810Reg. 強度 (reg )0.00.20.40.60.81.0E xpected edge drop ratioNCI10246810Reg. 0.45
Strength ( reg )PROTEINS0246810Reg. 強度(reg)PROTEINS0246810 Reg。 0.79
Strength ( reg )MUTAG0246810Reg. 強度 (reg )MUTAG0246810Reg。 0.79
Strength ( reg )DD0.000.250.500.75E dge drop ratio1.11.21.31.4Val idation RMSE5.02.00.50.3ogbg -molesolAD-GCL (ours)NAD-GCL0.000.2 50.500.75Edge drop ratio0.900.920.940.9 60.98Validation RMSE5.02.00.50.3ogbg -mollipoAD-GCL (ours)NAD-GCL0.000.2 50.500.75Edge drop ratio3.54.04.55.0Val idation RMSE5.02.00.50.3ogbg -molfreesolvAD-GCL (ours)NAD-GCL0.000.2 50.500.75Edge drop ratio0.40.50.60.70.8 0.9Validation MAE5.02.00.50.3ZINC- 10KAD-GCL (ours)NAD-GCL0.500.5 50.600.650.700.75Val idation ROC-AUC5.02.00.50.3o gbg-molbaceAD-GCL (ours)NAD-GCL0.50.60 .70.80.9Validation ROC-AUC5.02.00.50.3o gbg-molclintoxAD-GCL (ours)NAD-GCL0.730.7 40.750.760.770.78Val idation ROC-AUC5.02.00.50.3o gbg-moltox21AD-GCL (ours)NAD-GCL0.590.6 00.610.620.63Validat ion ROC-AUC5.02.00.50.3o gbg-molsiderAD-GCL (ours)NAD-GCL0.810.8 20.830.840.850.86Val idation Accuracy5.02.00.50.3 REDDIT-BINARYAD-GCL (ours)NAD-GCL0.5300. 5350.5400.5450.5500. 5550.560Validation Accuracy5.02.00.50.3 REDDIT-MULTI-5KAD-GC L (ours)NAD-GCL0.7220. 7240.7260.7280.7300. 732Validation Accuracy5.02.00.50.3 IMDB-BINARYAD-GCL (ours)NAD-GCL0.7050. 7100.7150.7200.7250. 7300.7350.740Validat ion Accuracy5.02.00.50.3 COLLABAD-GCL (ours)NAD-GCL0.000.2 50.500.750.6800.6850 .6900.6950.7000.7050 .710Validation Accuracy5.02.00.50.3 NCI1AD-GCL (ours)NAD-GCL0.000.2 50.500.750.720.730.7 40.750.76Validation Accuracy5.02.00.50.3 PROTEINSAD-GCL (ours)NAD-GCL0.000.2 50.500.750.900.910.9 20.93Validation Accuracy5.02.00.50.3 MUTAGAD-GCL (ours)NAD-GCL0.000.2 50.500.750.7550.7600 .7650.7700.775Valida tion Accuracy5.02.00.50.3 DDAD-GCL (ours)NAD-GCL Strength ( reg )DD0.000.250.500.75E dge drop ratio1.11.21.31.4Val idation RMSE5.02.00.50.3ogbg -molesolAD-GCL (ours)NAD-GCL0.000.2 50.500.75Edge drop ratio0.900.920.940.9 60.98Validation RMSE5.02.00.50.3ogbg -mollipoAD-GCL (ours)NAD-GCL0.000.2 50.500.75Edge drop ratio3.54.04.55.0Val idation RMSE5.02.00.50.3ogbg -molfreesolvAD-GCL (ours)NAD-GCL0.000.2 50.500.75Edge drop ratio0.40.50.60.70.8 0.9Validation MAE5.02.00.50.3ZINC- 10KAD-GCL (ours)NAD-GCL0.500.5 50.600.650.700.75Val idation ROC-AUC5.02.00.50.3o gbg-molbaceAD-GCL (ours)NAD-GCL0.50.60 .70.80.9Validation ROC-AUC5.02.00.50.3o gbg-molclintoxAD-GCL (ours)NAD-GCL0.730.7 40.750.760.770.78Val idation ROC-AUC5.02.00.50.3o gbg-moltox21AD-GCL (ours)NAD-GCL0.590.6 00.610.620.63Validat ion ROC-AUC5.02.00.50.3o gbg-molsiderAD-GCL (ours)NAD-GCL0.810.8 20.830.840.850.86Val idation Accuracy5.02.00.50.3 REDDIT-BINARYAD-GCL (ours)NAD-GCL0.5300. 5350.5400.5450.5500. 5550.560Validation Accuracy5.02.00.50.3 REDDIT-MULTI-5KAD-GC L (ours)NAD-GCL0.7220. 7240.7260.7280.7300. 732Validation Accuracy5.02.00.50.3 IMDB-BINARYAD-GCL (ours)NAD-GCL0.7050. 7100.7150.7200.7250. 7300.7350.740Validat ion Accuracy5.02.00.50.3 COLLABAD-GCL (ours)NAD-GCL0.000.2 50.500.750.6800.6850 .6900.6950.7000.7050 .710Validation Accuracy5.02.00.50.3 NCI1AD-GCL (ours)NAD-GCL0.000.2 50.500.750.720.730.7 40.750.76Validation Accuracy5.02.00.50.3 PROTEINSAD-GCL (ours)NAD-GCL0.000.2 50.500.750.900.910.9 20.93Validation Accuracy5.02.00.50.3 MUTAGAD-GCL (ours)NAD-GCL0.000.2 50.500.750.7550.7600 .7650.7700.775Valida tion Accuracy5.02.00.50.3 DDAD-GCL (ours)NAD-GCL 0.17
英語(論文から抽出)日本語訳スコア
Name ogbg-molesol ogbg-mollipo ogbg-molfreesolv ogbg-molbace ogbg-molbbbp ogbg-molclintox ogbg-moltox21 ogbg-molsider ZINC-10K ogbg-molesol ogbg-mollipo ogbg-molfreesolv ogbg-molbace ogbg-molbbbp ogbg-molclintox ogbg-moltox21 ogbg-molsiderzn-10k 0.43
#Graphs Avg #Nodes Avg #Edges 1,128 4,200 642 1,513 2,039 1,477 7,831 1,427 12,000 #Graphs Avg #Nodes Avg #Edges 1,128 4,200 642 1,513 2,039 1,477 7,831 1,427 12,000 0.62
13.7 29.5 8.4 36.9 26.0 27.9 19.3 35.4 49.83 13.7 29.5 8.4 36.9 26.0 27.9 19.3 35.4 49.83 0.42
13.3 27.0 8.7 34.1 24.1 26.2 18.6 33.6 23.16 13.3 27.0 8.7 34.1 24.1 26.2 18.6 33.6 23.16 0.42
#Tasks 1 1 1 1 1 2 12 27 1 #タスク 1 1 1 1 1 2 12 27 1 0.74
Metric RMSE RMSE RMSE 計量rmse rmse rmse 0.57
Task Type Regression Regression Regression Binary Class. Task Type Regression Regression Regression Binary Class 0.70
ROC-AUC Binary Class. ROC-AUCバイナリクラス。 0.69
ROC-AUC Binary Class. ROC-AUCバイナリクラス。 0.69
ROC-AUC Binary Class. ROC-AUCバイナリクラス。 0.69
ROC-AUC Binary Class. ROC-AUCバイナリクラス。 0.69
ROC-AUC Regression MAE ROC-AUC回帰 前 0.49
Table 5: Summary of chemical molecular properties datasets used for unsupervised learning experiments. 表5: 教師なし学習実験に使用される化学分子特性データセットの概要。 0.76
Datasets obtained from OGB [52] and [72] OGB[52]と[72]から得られたデータセット 0.84
Dataset #Graphs Avg. データセット #graphs avg。 0.60
#Nodes Avg. #Nodes Avg。 0.77
#Edges #Classes #Edges #クラス 0.79
NCI1 PROTEINS MUTAG DD NCI1タンパク質変異体DD 0.47
Biochemical Molecules 4,110 1,113 188 1,178 生化学分子4,110 1,113 188 1,178 0.53
29.87 39.06 17.93 284.32 Social Networks 29.87 39.06 17.93 284.32 ソーシャルネットワーク 0.51
COLLAB REDDIT-BINARY REDDIT-MULTI-5K IMDB-BINARY IMDB-MULTI collab reddit-binary reddit-multi-5k imdb-binary imdb-multi 0.21
5,000 2,000 4,999 1,000 1,500 5,000 2,000 4,999 1,000 1,500 0.44
74.5 429.6 508.8 19.8 13.0 74.5 429.6 508.8 19.8 13.0 0.44
32.30 72.82 19.79 715.66 32.30 72.82 19.79 715.66 0.45
2457.78 497.75 594.87 96.53 65.94 2457.78 497.75 594.87 96.53 65.94 0.44
2 2 2 2 3 2 5 2 3 2 2 2 2 3 2 5 2 3 0.85
Table 6: Summary of biochemical and social networks from TU Benchmark Dataset [71] used for unsupervised and semi-supervised learning experiments. 表6:tuベンチマークデータセット[71]の生化学的およびソーシャルネットワークの概要 教師なしおよび半教師なし学習実験に使用される。 0.61
The evaluation metric for all these datasets is Accuracy. これらすべてのデータセットの評価基準は正確である。 0.69
in an expected edge drop ratio (measured at saddle point of Eq 8) value to match the random drop ratio used for NAD-GCL. NAD-GCLのランダムドロップ比と一致するように、期待エッジドロップ比(Eq 8のサドルポイントで測定される)で。 0.64
Figure 7 further provides additional plots of the training dynamics of expected edge drop ratio for different λreg values. 図7はさらに、異なるλreg値に対する予測エッジドロップ比のトレーニングダイナミクスのさらなるプロットを提供する。 0.83
Dataset Utilization #Graphs データセット 利用 #graphs 0.66
Avg. #Nodes Avg. avgだ #Nodes Avg。 0.67
Degree Protein-Protein Interaction Networks 学位 タンパク質-タンパク質相互作用ネットワーク 0.60
PPI-306K Pre-Training PPI Finetuning PPI-306K プレトレーニングPPI微細化 0.52
306,925 88,000 306,925 88,000 0.50
39.82 49.35 39.82 49.35 0.50
729.62 890.77 729.62 890.77 0.50
Chemical Molecules ZINC-2M Pre-Training Finetuning BBBP Tox21 Finetuning Finetuning SIDER Finetuning ClinTox Finetuning BACE Finetuning HIV Finetuning MUV ToxCast Finetuning 化学分子 ZINC-2M プレトレーニング用BBBP Tox21 ファインタニング用シダーファインタニング用クリントックスファインタニングベッド HIVファインタニング用MUV ToxCastファインタニング 0.58
2,000,000 2,039 7,831 1,427 1,477 1,513 41,127 93,087 8,576 2,000,000 2,039 7,831 1,427 1,477 1,513 41,127 93,087 8,576 0.41
26.62 24.06 18.57 33.64 26.15 34.08 25.51 24.23 18.78 26.62 24.06 18.57 33.64 26.15 34.08 25.51 24.23 18.78 0.42
57.72 51.90 38.58 70.71 55.76 73.71 54.93 52.55 38.52 57.72 51.90 38.58 70.71 55.76 73.71 54.93 52.55 38.52 0.42
Table 7: Summary of biological interaction and chemical molecule datasets from [17]. 表7:[17]からの生物相互作用と化学分子データセットの概要。 0.85
Used for graph classification in transfer learning experiments. 転移学習実験におけるグラフ分類に用いられる。 0.82
The evaluation metric is ROC-AUC. 評価基準はROC-AUCである。 0.70
20 20 0.85
英語(論文から抽出)日本語訳スコア
ogbg-molesol ogbg-molesol 0.59
ogbg-mollipo ogbg-mollipo 0.59
ogbg-molfreesolv ZINC-10K ogbg-molbace ogbg-molfreesolv ZINC-10K ogbg-molbace 0.43
ogbg-molbbbp ogbg-molbbbp 0.59
ogbg-molclintox ogbg-molclintox 0.59
ogbg-moltox21 ogbg-moltox21 0.47
ogbg-molsider ogbg-molsider 0.59
AD-GCL-OPT AD-GCL-OPT 0.39
0.4 COLLAB 0.4 COLLAB 0.72
0.1 RDT-B 0.3 0.1 RDT-B 0.3 0.59
0.8 10.0 RDT-M5K 0.8 10.0 RDT-M5K 0.52
IMDB-B IMDB-M IMDB-B IMDB-M 0.59
AD-GCL-OPT Table 8: Optimal λreg for AD-GCL on validation set that are used for reporting test performance in Tables 1 (TOP) and (BOTTOM). AD-GCL-OPT Table 8: 表1(TOP)と(BOTTOM)でテストパフォーマンスを報告するために使用される検証セット上のAD-GCLの最適λreg。 0.79
10.0 10.0 2.0 10.0 10.0 2.0 0.59
10.0 5.0 5.0 10.0 5.0 5.0 0.59
10.0 NCI1 5.0 10.0 NCI1 5.0 0.52
5.0 PROTEINS 10.0 5.0 タンパク質 10.0 0.57
MUTAG 1.0 5.0 DD 10.0 ムタガ 1.0 5.0 DD 10.0 0.49
Figure 7: Training dynamics of expected edge drop ratio for λreg. 図7:λregの期待エッジドロップ比のトレーニングダイナミクス。 0.73
G Experimental Settings and Complete Evaluation Results g実験の設定と完全評価結果 0.87
In this section, we provide the detailed experimental settings and additional experimental evaluation results for unsupervised, transfer and semi-supervised learning experiments we conducted (Section 5). 本稿では, 教師なし, 転送, セミ教師付き学習実験について, 詳細な実験環境と実験結果について述べる(第5部)。 0.74
In addition we also provide details of the motivating experiment (Figure 2 in main text). さらに、モチベーション実験の詳細(メインテキストの図2)も提供します。 0.62
G.1 Motivating Experiment (Figure 2) G.1 モチベーション実験(第2報) 0.68
The aim of this experiment is to show that having GNNs that can maximize mutual information between the input graph and its representation is insufficient to guarantee their performance in the downstream tasks, because redundant information may still maximize mutual information but may degenerate the performance. 本実験の目的は, 入力グラフとその表現間の相互情報を最大化できるgnnの存在が, ダウンストリームタスクにおけるそれらの性能を保証するには不十分であることを示すことである。
訳抜け防止モード: この実験の目的は、それを示すことである。 入力グラフとその表現の間の相互情報を最大化するGNNを持つ 下流での性能を保証するには不十分です 冗長な情報は 相互情報を最大化できるが 性能を低下させる
0.77
To show this phenomenon, we perform two case studies: (1) a GNN is trained following the vanilla GCL (InfoMax) objective and (2) a GNN is trained following the vanilla GCL (InfoMax) objective while simultaneously a linear classifier that tasks the graph representations output by the GNN encoder is trained with random labels. この現象を示すために、(1)GNNがバニラGCL(InfoMax)の目的に従って訓練され、(2)GNNがバニラGCL(InfoMax)の目的に従って訓練され、同時にGNNエンコーダが出力するグラフ表現をランダムラベルで訓練する線形分類器が実行される。 0.75
These two GNNs have exactly the same architectures, hyperparametes and initialization. これら2つのGNNは、全く同じアーキテクチャ、ハイパーパラメータ、初期化を持っている。 0.50
Specifically, the GNN architecture is GIN [70], with embedding dimension of 32, 5 layers with no skip connections and a dropout of 0.0. 具体的には、GNNアーキテクチャはGIN[70]で、埋め込み寸法は32, 5層で、スキップ接続がなく、ドロップアウトは0.0である。 0.65
Both GNN encoders are trained as above. 両方のgnnエンコーダは上述のようにトレーニングされる。 0.52
In the first step of the evaluation, we want to test whether these GNNs keep mutual information maximization. 評価の最初のステップでは、これらのgnnが相互情報最大化を維持するかどうかを検証したい。
訳抜け防止モード: 評価の第一段階として これらのGNNが相互情報の最大化を維持しているかどうかをテストする。
0.62
For all graphs in the ogbg-molbace dataset, either one of the GNN provides a set of graph representations. ogbg-molbaceデータセットのすべてのグラフに対して、GNNのいずれかがグラフ表現のセットを提供する。 0.75
For each GNN, we compare all its 各GNNについて、そのすべてを比較します 0.70
21 21 0.85
英語(論文から抽出)日本語訳スコア
output graph representations. We find that, the output representations of every two graphs have difference that is greater than a digit accuracy. グラフ表現の出力。 その結果、2つのグラフの出力表現には1桁の精度以上の差があることがわかった。 0.82
This implies that either one of the GNN keeps an one-to-one correspondance between the graphs in the dataset and their representations, which guarantees mutual information maximization. これは、GNNのどちらか一方がデータセット内のグラフとその表現を1対1で対応させ、相互情報の最大化を保証することを意味する。 0.64
We further compare these two GNNs encoders in the downstream task by using true labels. さらに,これら2つのgnnエンコーダを下流タスクで真ラベルを用いて比較する。 0.65
We impose two linear classifiers on the output representations of the above two GNN encoders to predict the true labels. 上記の2つのGNNエンコーダの出力表現に2つの線形分類器を課し、真のラベルを予測する。 0.73
The two linear classifiers have exactly the same architecture, hyperparametes and initialization. 2つの線形分類器は、全く同じアーキテクチャ、ハイパーパラメータと初期化を持つ。 0.65
Specifically, a simple logistic classifier implemented using sklearn [81] is used with L2 regularization. 具体的には、sklearn[81]を用いて実装された単純なロジスティック分類器をL2正規化で使用する。 0.58
The L2 strength is tuned using validation set. L2強度は検証セットを用いて調整される。 0.70
For the dataset ogbg-molbace, we follow the default train/val/test splits that are given by the original authors of OGB [52]. データセット ogbg-molbace については、OGB [52] のオリジナルの作者によって与えられたデフォルトの Train/val/test 分割に従っています。 0.59
Note that, during the evaluation stage, the GNN encoders are fixed while the linear classifiers get trained. 評価段階では、線形分類器が訓練される間にGNNエンコーダが固定される。 0.68
The evaluation performance is the curves as illustrated in Figure 2. 評価性能は、図2に示すように曲線である。 0.84
G.2 Unsupervised Learning G.2 教師なし学習 0.51
Evaluation protocol. In this setting, all methods are first trained with the corresponding selfsupervised objective and then evaluated with a linear classifier/regressor. 評価プロトコル。 この設定では、全てのメソッドは、まず対応する自己教師対象で訓練され、次に線形分類器/回帰器で評価される。
訳抜け防止モード: 評価プロトコル。 この設定では、まず全てのメソッドが対応する自己教師対象で訓練される そして、線形分類器/回帰器で評価する。
0.64
We follow [61] and adopt a linear evaluation protocol. 我々は[61]に従い,線形評価プロトコルを採用する。 0.77
Specifically, once the encoder provides representations, a Ridge regressor (+ L2) and Logistic (+ L2) classifier is trained on top and evaluated for regression and classification tasks respectively. 具体的には、エンコーダが表現を提供すると、リッジ回帰器 (+ L2) とロジスティック (+ L2) の分類器がトップにトレーニングされ、それぞれ回帰タスクと分類タスクで評価される。 0.64
Both methods are implemented using sklearn [81] and uses LBFGS [82] or LibLinear [83] solvers . どちらの手法もsklearn [81]を用いて実装され、LBFGS [82] またはLibLinear [83] ソルバを使用する。 0.69
Finally, the lone hyper-parameter of the downstream linear model i.e. 最後に、下流線形モデルの孤立超パラメータ、すなわち。 0.68
L2 regularization strength is grid searched among {0.001, 0.01, 0.1, 1, 10, 100, 1000} on the validation set for every single representation evaluation. l2正則化強度は、各代表評価の検証セット上で {0.001, 0.01, 0.1, 1, 10, 100, 1000} でグリッド検索される。 0.70
For the Open Graph Benchmark Datasets (ogbg-mol*), we directly use the processed data in Pytorch Geometric format which is available online 1. Open Graph Benchmark Datasets (ogbg-mol*)では、Pytorch Geometricフォーマットで処理されたデータを直接使用しています。 0.78
The processed data includes train/val/test that follow a scaffolding split. 処理されたデータは、足場分割に続くトレイン/バルブ/テストを含む。 0.53
More details are present in the OGB paper [52]. 詳細はogb paper [52]に記載されている。 0.73
Additionally, we make use of the evaluators written by authors for standardizing the evaluation. また,著者が作成した評価器を用いて評価を標準化する。 0.72
The evaluation metric varies depending on the task at hand. 評価基準は、手作業によって異なる。 0.57
For regression tasks it is RMSE (root mean square error) and for classification it is ROC-AUC (%). 回帰処理ではRMSE(ルート平均二乗誤差)、分類ではROC-AUC(%)である。 0.75
For the ZINC-10K dataset [72], we use the processed data in Pytorch Geometric format that is made available online2 by the authors. ZINC-10Kデータセット[72]では、著者らがオンライン2で利用可能なPytorch Geometricフォーマットで処理されたデータを使用します。 0.70
We use the same train/val/test splits that are provided. 提供されるものと同じトレイン/バル/テストスプリットを使用します。 0.42
We follow the authors and adopt MAE (mean absolute error) as the test metric. 著者に従い、テスト指標としてMAE(mea absolute error)を採用します。 0.66
For the TU Datasets [71], we obtain the data from Pytorch Geometric Library 3 and follow the conventional 10-Fold evaluation. TUデータセット [71] について、Pytorch Geometric Library 3 からデータを取得し、従来の 10-Fold 評価に従う。 0.82
Following standard protocol, we adopt Accuracy (%) as the test metric. 標準プロトコルに従い、テストメトリクスとして精度(%)を採用します。 0.77
All our experiments are performed 10 times with different random seeds and we report mean and standard deviation of the corresponding test metric for each dataset. 実験はすべて、異なるランダムな種で10回実施され、各データセットに対する対応するテストメトリックの平均と標準偏差を報告します。 0.79
Other hyper-parameters. その他のハイパーパラメータ。 0.53
The encoder used for ours and baselines is GIN [70]. 私たちのコードとベースラインに使用されるエンコーダはGIN[70]です。 0.70
The encoder is fixed and not tuned while performing self-supervised learning (i.e. エンコーダは固定され、自己教師付き学習(即ち)を行いながらチューニングされない。 0.59
embedding dimension, number of layers, pooling type) for all the methods to keep the comparison fair. 比較を公平に保つために、すべてのメソッドに対して、次元、レイヤ数、プーリングタイプ)を埋め込む。 0.69
The reasoning is that any performance difference we witness should only be attributed to the self-supervised objective and not to the encoder design. その理由は、私たちが見てきたパフォーマンスの違いは、エンコーダ設計ではなく、自己監視された目標にのみ関係しているべきだということです。 0.49
Details of encoder for specific datasets. 特定のデータセットのエンコーダの詳細。 0.78
• OBG - emb dim = 300, num gnn layers = 5, pooling = add, skip connections = None, • OBG - Emb dim = 300, num gnn layer = 5, pooling = add, skip connection = None, 0.83
dropout = 0.5, batch size = 32 dropout = 0.5, batch size = 32 0.96
• ZINC-10K - emb dim = 100, num gnn layers = 5, pooling = add, skip connections = None, •zn-10k - emb dim = 100, num gnn layers = 5, pooling = add, skip connections = none, 0.91
dropout = 0.5, batch size = 64 dropout = 0.5, batch size = 64 0.96
• TU Datasets - emb dim = 32, num gnn layers = 5, pooling = add, skip connections = None, • TUデータセット - Emb dim = 32, num gnn layer = 5, pooling = add, skip connection = None, 0.84
dropout = 0.5, batch size = 32 dropout = 0.5, batch size = 32 0.96
The optimization of AD-GCL is performed using Adam and the learning rates for the encoder and the augmenter in AD-GCL are tuned among {0.01, 0.005, 0.001}. Adamを用いてAD-GCLの最適化を行い、AD-GCLのエンコーダとオーグメンタの学習率を{0.01, 0.005, 0.001} で調整する。 0.70
We find that asymmetric learning 1https://ogb.stanfor d.edu/docs/graphprop / 2https://github.com/ graphdeeplearning/be nchmarking-gnns/tree /master/data 3https://pytorch-geo metric.readthedocs.i o/en/latest/modules/ datasets.html 不対称な学習は 1https://ogb.stanfor d.edu/docs/graphprop / 2https://github.com/ graphdeeplearning/be nchmarking-gnns/tree /master/data 3https://pytorch-geo metric.readthedocs.i o/en/latest/modules/ datasets 0.43
22 22 0.85
英語(論文から抽出)日本語訳スコア
rates for encoder and augmenter tend to make the training non-stable. エンコーダと拡張器のレートはトレーニングを安定させる傾向がある。 0.63
Thus, for stability we adopt a learning rate of 0.001 for all the datasets and experiments. したがって、安定性のために、すべてのデータセットと実験に対して0.001の学習率を採用する。 0.66
The number of training epochs are chosen among {20, 50, 80, 100, 150} using the validation set. トレーニングのエポックの数は、検証セットを使用して {20, 50, 80, 100, 150} の中から選択される。 0.66
G.3 Transfer Learning Evaluation protocol. g.3 転送学習 評価プロトコル。 0.69
We follow the same evaluation protocol as done in [17]. 私たちは[17]で行ったのと同じ評価プロトコルに従います。 0.69
In this setting, self-supervised methods are trained on the pre-train dataset and later used to be test regarding transferability. この設定では、自己教師付きメソッドはプリトレインデータセットでトレーニングされ、後に転送可能性に関するテストに使用される。 0.58
In the testing procedure, the models are fine-tuned on multiple datasets and evaluated by the labels of these datasets. テスト手順では、モデルは複数のデータセット上で微調整され、これらのデータセットのラベルによって評価される。 0.61
We adopt the GIN encoder used in [17] with the same settings for fair comparison. 我々は[17]で使用されるGINエンコーダを採用し、同じ設定で公正な比較を行う。 0.74
All reported values for baseline methods are taken directly from [17] and [24]. ベースラインメソッドの報告されたすべての値は、 [17] と [24] から直接取り出される。 0.77
For the fine-tuning, the encoder has an additional linear graph prediction layer on top which is used to map the representations to the task labels. 微調整のために、エンコーダは、その表現をタスクラベルにマッピングするために使用される、追加の線形グラフ予測層を持つ。 0.68
This is trained end-to-end using gradient descent (Adam). これは勾配降下 (Adam) を用いてエンドツーエンドに訓練される。 0.55
Hyper-parameters. ハイパーパラメータ。 0.66
Due to the large pre-train dataset size and multiple fine-tune datasets finding optimal λreg for each of them can become time consuming. 大きなプリトレインデータセットサイズと、それらに対して最適なλregを見つける複数の微動データセットが、時間消費になる可能性がある。 0.62
Instead we use a fixed λreg = 5.0 as it provides reasonable performance. 代わりに、固定 λreg = 5.0 を用いる。 0.60
The learning rate is also fixed to 0.001 and is symmetric for both the encoder and augmenter during self-supervision on the pre-train dataset. 学習速度も0.001に固定され、プレトレインデータセットの自己監督中にエンコーダとオーグメンタの両方に対称である。 0.62
The number of training epochs for pre-training is chosen among {20, 50, 80, 100} based on the validation performance on the fine-tune datasets. 事前トレーニングのためのトレーニングエポックの数は、きめ細かいデータセットの検証パフォーマンスに基づいて、 {20, 50, 80, 100} の中から選択される。 0.69
The same learning setting for fine-tuning is used by following [24]. 24]に従えば、微調整のための同じ学習設定を用いる。 0.68
G.4 Semi-supervised Learning G.4 半教師あり学習 0.47
Evaluation protocol. We follow the protocol as mentioned in [24]. 評価プロトコル。 私たちは[24]で述べたプロトコルに従います。 0.72
In this setting, the selfsupervised methods are pre-trained and later fine-tuned with 10% true label supervision on the same dataset. この設定では、自己教師付きメソッドは事前トレーニングされ、後に同じデータセット上で10%の真のラベル監督によって微調整される。 0.49
The representations generated by the methods are finally evaluated using 10-fold evaluation. 提案手法により生成された表現は10倍の評価により最終的に評価される。 0.56
All reported values for baseline methods are taken directly from [24]. ベースラインメソッドの報告されたすべての値は[24]から直接取ります。 0.73
For fine-tuning, the encoder has an additional linear graph prediction layer on top which is used to map the representations to the task labels. 微調整のために、エンコーダには、その表現をタスクラベルにマッピングするために使用される線形グラフ予測層が追加されている。 0.65
This is trained end-to-end by using gradient descent (Adam). これは勾配降下 (Adam) を用いてエンドツーエンドに訓練される。 0.60
Hyper-parameters. ハイパーパラメータ。 0.66
For the pre-training our model, a fixed λreg = 5.0 and learning rate of 0.001 for both encoder and augmenter is used. モデルの事前学習には、固定λreg = 5.0 とエンコーダとオーグメンタの学習率 0.001 を用いる。 0.76
The epochs are selected among {20, 50, 80, 100} and finally for fine-tuning with 10% label supervision, default parameters from [24] are used. このエポックは {20, 50, 80, 100} から選択され、最後に10%のラベル監督を伴う微調整のために [24] のデフォルトパラメータが使用される。 0.74
H Limitations and Broader Impact h制限とより広い影響 0.77
We stress on the fact that self-supervised methods come with a fundamental set of limitations as they don’t have access to the downstream task information. 私たちは、下流のタスク情報にアクセスできないため、自己教師型メソッドには基本的な制限が伴うという事実を強調します。 0.66
Specifically for contrastive learning, the design of contrastive pairs (done through augmentations) plays a major role as it guides the encooder to selectively capture certain invariances with the hope that it can be beneficial to downstream tasks. 特に、対照的な学習のために、コントラストペア(補足によって生じる)の設計は、エンクーダが下流タスクに有益であることを期待して、特定の不変性を選択的に捉えるように導くため、重要な役割を果たす。 0.62
Biases could creep in during the design of such augmentations that can be detrimental to the downstream tasks and risk learning of sub-optimal or non-robust representations of input data. バイアスは、下流のタスクや入力データの準最適あるいは非ロバストな表現のリスク学習に有害な拡張を設計するときに、忍び寄る可能性がある。 0.69
Our work helps to alleviate some of the issues of hand designed augmentation techniques and provides a novel principle that can aid in the design of learnable augmentations. 我々の研究は、手作りの増補技法の問題を緩和し、学習可能な増補手法の設計を支援する新しい原則を提供するのに役立ちます。 0.64
It also motivates further research into the understanding the inherent biases of family of augmentations and how they affect the downstream tasks. また、拡大の家族の固有のバイアスと、下流のタスクにどのように影響するかを理解するためのさらなる研究を動機付けている。 0.54
Finally, self-supervised graph representation learning has a lot of implications in terms of either fairness, robustness or privacy for the various fields that have been increasing adopting these methods. 最後に、自己教師付きグラフ表現学習は、これらの手法を採用するようになりつつある様々な分野の公平性、堅牢性、プライバシーといった面において多くの意味を持つ。 0.48
I Compute Resources I Compute Resources 0.85
All our experiments are performed on a compute cluster managed by Slurm Workload Manager. 実験はすべて、Slurm Workload Managerが管理する計算クラスタ上で行われます。 0.78
Each node has access to a mix of multiple Nvidia GeForce GTX 1080 Ti (12GB), GeForce GTX TITAN X (12GB) and TITAN Xp (12GB) GPU cards. 各ノードには複数のNvidia GeForce GTX 1080 Ti(12GB)、GeForce GTX TITAN X(12GB)、TITAN Xp(12GB)のGPUカードが混在している。 0.90
23 23 0.85
                                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。