Fugu-MT 論文翻訳(概要): FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs

論文の概要: FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs

arxiv url: http://arxiv.org/abs/2511.13645v1
Date: Mon, 17 Nov 2025 17:57:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 18:52:09.651675
Title: FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs
Title（参考訳）: FuseSampleAgg:ミニバッチGNNの近隣サンプリングと集約
Authors: Aleksandar Stanković,
Abstract要約: FuseSampleAggは、隣人の平均アグリゲーションをGraphSAGEの1つのパスにフューズし、サンプリングする。 Operatorは決定論的であり、標準のPyTorchと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。
参考スコア（独自算出の注目度）: 51.56484100374058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present FuseSampleAgg, a CUDA operator that fuses neighbor sampling and mean aggregation into a single pass for one and two hop GraphSAGE. By eliminating block materialization and extra kernel launches, FuseSampleAgg reduces memory traffic and overhead while preserving GraphSAGE mean semantics via saved index replay. Across the Reddit, ogbn-arxiv, and ogbn-products benchmarks (batch size 1024, automatic mixed precision enabled), we observe step time speedups up to 51x on ogbn-products, about 4x on Reddit with fanouts 10-10 and 15-10, and about 3.3x on ogbn-arxiv at larger fanouts, with peak GPU memory reductions up to 100x, 36x, and about 3.5x, respectively. The operator is deterministic, integrates with standard PyTorch optimizers, and ships with scripts that reproduce all tables and figures from CSV logs. Code and scripts are available at https://github.com/SV25-22/FuseSampleAgg.
Abstract（参考訳）: FuseSampleAggは、CUDA演算子で、隣接するサンプリングと平均アグリゲーションを1つのパスと2つのホップグラフSAGEに融合させる。 FuseSampleAggはブロックの実体化と余分なカーネルの起動を排除し、メモリトラフィックとオーバーヘッドを減らすと同時に、保存されたインデックスリプレイを通じてGraphSAGEの平均セマンティクスを保存する。 Reddit, ogbn-arxiv, ogbn-productsベンチマーク(バッチサイズ1024, 自動混合精度有効)全体で, ogbn-productsのステップタイムスピードアップは51倍, Redditでは10～10倍, ogbn-arxivでは3.3倍, ピークGPUメモリでは100倍, 36倍, 3.5倍となる。オペレータは決定論的で、標準のPyTorchオプティマイザと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。コードとスクリプトはhttps://github.com/SV25-22/FuseSampleAgg.comで入手できる。

関連論文リスト

Auto-scaling Continuous Memory for GUI Agent [35.84598737971337]
従来のGUIエージェントは過去のトラジェクトリをテキストトークンに圧縮する。本稿では,各GUI軌跡を連続埋め込みの固定長列に符号化する連続メモリを提案する。メモリサイズと検索深度が増加するにつれて、長いプロンプトで劣化するテキストメモリとは異なり、パフォーマンスは単調に向上する。
論文参考訳（メタデータ） (2025-10-10T06:16:45Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Distributed Matrix-Based Sampling for Graph Neural Network Training [0.0]
本稿では,スパース行列乗算(SpGEMM)としてサンプリングを表現し,複数のミニバッチを同時にサンプリングする行列ベースバルクサンプリング手法を提案する。入力グラフトポロジが1つのデバイスに収まらない場合、このグラフを分散し、通信回避型SpGEMMアルゴリズムを用いてGNNミニバッチサンプリングをスケールする。新たなサンプリング方法に加えて,行列に基づくバルクサンプリング手法を用いて,エンドツーエンドのトレーニング結果を提供するパイプラインを導入する。
論文参考訳（メタデータ） (2023-11-06T06:40:43Z)
Towards Memory-Efficient Training for Extremely Large Output Spaces -- Learning with 500k Labels on a Single Commodity GPU [2.3224617218247134]
巨大な出力空間(数百万ラベルまで)の分類問題では、最後の層は膨大な量のメモリを必要とする。スパース接続を使用することで、メモリ要求が大幅に削減されるが、モデルの性能が大幅に低下する可能性がある。提案手法は,わずか4GBのGPU上で670,000ラベルのデータセットにスケール可能であることを示す。
論文参考訳（メタデータ） (2023-06-06T14:44:52Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文参考訳（メタデータ） (2022-03-22T12:26:56Z)
Learning Tracking Representations via Dual-Branch Fully Transformer Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文参考訳（メタデータ） (2021-12-05T13:44:33Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。