論文の概要: TorchGT: A Holistic System for Large-scale Graph Transformer Training
- arxiv url: http://arxiv.org/abs/2407.14106v1
- Date: Fri, 19 Jul 2024 08:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:23:52.953403
- Title: TorchGT: A Holistic System for Large-scale Graph Transformer Training
- Title(参考訳): TorchGT:大規模グラフトランストレーニングのためのホロスティックシステム
- Authors: Meng Zhang, Jie Sun, Qinghao Hu, Peng Sun, Zeke Wang, Yonggang Wen, Tianwei Zhang,
- Abstract要約: Graph Transformerは、グラフ学習においてGNNを上回る新しいアーキテクチャである。
本稿では,最初の効率的でスケーラブルで正確なグラフトランスフォーマートレーニングシステムであるTorchGTを提案する。
TorchGTはトレーニングを62.7倍に強化し、グラフシーケンスの長さを最大1Mまでサポートする。
- 参考スコア(独自算出の注目度): 27.67050123844626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Transformer is a new architecture that surpasses GNNs in graph learning. While there emerge inspiring algorithm advancements, their practical adoption is still limited, particularly on real-world graphs involving up to millions of nodes. We observe existing graph transformers fail on large-scale graphs mainly due to heavy computation, limited scalability and inferior model quality. Motivated by these observations, we propose TorchGT, the first efficient, scalable, and accurate graph transformer training system. TorchGT optimizes training at different levels. At algorithm level, by harnessing the graph sparsity, TorchGT introduces a Dual-interleaved Attention which is computation-efficient and accuracy-maintained. At runtime level, TorchGT scales training across workers with a communication-light Cluster-aware Graph Parallelism. At kernel level, an Elastic Computation Reformation further optimizes the computation by reducing memory access latency in a dynamic way. Extensive experiments demonstrate that TorchGT boosts training by up to 62.7x and supports graph sequence lengths of up to 1M.
- Abstract(参考訳): Graph Transformerは、グラフ学習においてGNNを上回る新しいアーキテクチャである。
アルゴリズムの進歩は目覚ましいが、その実践的採用は、特に数百万のノードを含む現実世界のグラフではまだ限られている。
既存のグラフトランスフォーマーが大規模グラフでフェールするのは,計算量が多いこと,スケーラビリティが限られていること,モデル品質が劣っていることなどが主な原因である。
これらの観測から得られたTorchGTは,最初の効率的でスケーラブルで正確なグラフトランスフォーマートレーニングシステムである。
TorchGTは異なるレベルのトレーニングを最適化する。
アルゴリズムレベルでは、グラフの間隔を活用することで、TorchGTは計算効率と正確性を維持するDual-Interleaved Attentionを導入する。
実行時レベルでは、TorchGTは通信ライトのクラスタ対応グラフ並列処理を使用して、ワーカ間のトレーニングをスケールする。
カーネルレベルでは、Elastic Computation Reformationは動的にメモリアクセス遅延を減らして計算をさらに最適化する。
大規模な実験により、TorchGTは最大62.7倍のトレーニングを加速し、最大1Mのグラフシーケンス長をサポートすることが示されている。
関連論文リスト
- Generalizing Graph Transformers Across Diverse Graphs and Tasks via Pre-Training on Industrial-Scale Data [34.21420029237621]
PGT(Pre-trained Graph Transformer)と呼ばれるスケーラブルなトランスフォーマーベースのグラフ事前学習フレームワークを導入する。
本フレームワークは,産業用データセットと公共用データセットの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-07-04T14:14:09Z) - SpikeGraphormer: A High-Performance Graph Transformer with Spiking Graph Attention [1.4126245676224705]
Graph Transformerは、Graph Neural Networks(GNN)固有の制限を軽減するための、有望なソリューションとして登場した。
本稿では,SNNとグラフ変換器の統合に関する新たな知見を提案し,Spiking Graph Attention (SGA) モジュールを設計する。
SpikeGraphormerは、さまざまなデータセットにわたる既存の最先端アプローチを一貫して上回る。
論文 参考訳(メタデータ) (2024-03-21T03:11:53Z) - GSINA: Improving Subgraph Extraction for Graph Invariant Learning via
Graph Sinkhorn Attention [52.67633391931959]
グラフ不変学習(GIL)は,グラフデータとそのラベル間の不変性を発見するための効果的な手法である。
グラフシンクホーン注意機構(GSINA)を提案する。
GSINAは、制御可能な空間性と柔らかさを持つ有意義で微分可能な不変部分グラフを得ることができる。
論文 参考訳(メタデータ) (2024-02-11T12:57:16Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - Deep Prompt Tuning for Graph Transformers [55.2480439325792]
ファインチューニングはリソース集約型であり、大きなモデルのコピーを複数保存する必要がある。
ファインチューニングの代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。
事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーを不要にする。
論文 参考訳(メタデータ) (2023-09-18T20:12:17Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - PatchGT: Transformer over Non-trainable Clusters for Learning Graph
Representations [18.203910156450085]
我々は、新しいTransformerベースのグラフニューラルネットワーク、Patch Graph Transformer(PatchGT)を提案する。
グラフ表現を学習する従来のトランスフォーマーベースモデルとは異なり、PatchGTはノードから直接ではなく、トレーニング不可能なグラフパッチから学習する。
PatchGTは1-WL型GNNよりも高い性能を達成し,ベンチマークデータセット上でPatchGTが競合性能を達成することを示す実証的研究を行った。
論文 参考訳(メタデータ) (2022-11-26T01:17:23Z) - Scaling R-GCN Training with Graph Summarization [71.06855946732296]
リレーショナルグラフ畳み込みネットワーク(R-GCN)のトレーニングは、グラフのサイズに合わない。
本研究では,グラフの要約手法を用いてグラフを圧縮する実験を行った。
AIFB, MUTAG, AMデータセットについて妥当な結果を得た。
論文 参考訳(メタデータ) (2022-03-05T00:28:43Z) - Dynamic Graph Representation Learning via Graph Transformer Networks [41.570839291138114]
動的グラフ変換器 (DGT) を用いた動的グラフ学習手法を提案する。
DGTは、グラフトポロジを効果的に学習し、暗黙のリンクをキャプチャするための時空間符号化を持つ。
DGTはいくつかの最先端のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-19T21:44:23Z) - Dirichlet Graph Variational Autoencoder [65.94744123832338]
本稿では,グラフクラスタメンバシップを潜在因子とするDGVAE(Dirichlet Graph Variational Autoencoder)を提案する。
バランスグラフカットにおける低パス特性により、入力グラフをクラスタメンバシップにエンコードする、Heattsと呼ばれるGNNの新しい変種を提案する。
論文 参考訳(メタデータ) (2020-10-09T07:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。