論文の概要: SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations
- arxiv url: http://arxiv.org/abs/2502.16949v1
- Date: Mon, 24 Feb 2025 08:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:52.037253
- Title: SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations
- Title(参考訳): SparseTransX:スパースマトリックス操作を用いた翻訳ベース知識グラフ埋め込みの効率的な学習
- Authors: Md Saidul Hoque Anik, Ariful Azad,
- Abstract要約: 知識グラフ(KG)学習は、新しい知識を生成し、推論を行うための強力なフレームワークを提供する。
KG埋め込みのトレーニングには、特に大規模なデータセットでは、非常に長い時間がかかる可能性がある。
コア埋め込みをSpMMカーネルに置き換えることでこの問題に対処する。
これにより、複数のスキャッタ操作を単一の操作として統一し、トレーニング時間とメモリ使用量を削減できます。
- 参考スコア(独自算出の注目度): 1.5998912722142724
- License:
- Abstract: Knowledge graph (KG) learning offers a powerful framework for generating new knowledge and making inferences. Training KG embedding can take a significantly long time, especially for larger datasets. Our analysis shows that the gradient computation of embedding is one of the dominant functions in the translation-based KG embedding training loop. We address this issue by replacing the core embedding computation with SpMM (Sparse-Dense Matrix Multiplication) kernels. This allows us to unify multiple scatter (and gather) operations as a single operation, reducing training time and memory usage. We create a general framework for training KG models using sparse kernels and implement four models, namely TransE, TransR, TransH, and TorusE. Our sparse implementations exhibit up to 5.3x speedup on the CPU and up to 4.2x speedup on the GPU with a significantly low GPU memory footprint. The speedups are consistent across large and small datasets for a given model. Our proposed sparse approach can also be extended to accelerate other translation-based (such as TransC, TransM, etc.) and non-translational (such as DistMult, ComplEx, RotatE, etc.) models as well.
- Abstract(参考訳): 知識グラフ(KG)学習は、新しい知識を生成し、推論を行うための強力なフレームワークを提供する。
KG埋め込みのトレーニングには、特に大規模なデータセットでは、非常に長い時間がかかる可能性がある。
解析により, 埋め込みの勾配計算は, 翻訳に基づくKG埋め込み訓練ループにおいて支配的な関数の1つであることが示された。
コア埋め込み計算をSpMM(Sparse-Dense Matrix Multiplication)カーネルに置き換えることでこの問題に対処する。
これにより、複数のスキャッタ操作を単一の操作として統一し、トレーニング時間とメモリ使用量を削減できます。
スパースカーネルを用いてKGモデルをトレーニングするための一般的なフレームワークを作成し、TransE、TransR、TransH、TorusEの4つのモデルを実装する。
スパース実装ではCPU上では最大5.3倍のスピードアップ、GPU上では最大4.2倍のスピードアップを実現しています。
スピードアップは、与えられたモデルに対して、大きくて小さなデータセット間で一貫性がある。
提案手法は,他の翻訳モデル(TransC,TransMなど)や非翻訳モデル(DistMult,ComplEx,RotatEなど)の高速化にも有効である。
関連論文リスト
- An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける最先端の性能を得る。
クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高度に構造化されたスパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。
我々は,CGテンソル製品用のGPUスパースカーネルジェネレータを導入し,既存のオープンソース実装とクローズドソース実装の大幅な高速化を実現した。
論文 参考訳(メタデータ) (2025-01-23T08:20:47Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Token-wise Influential Training Data Retrieval for Large Language Models [8.42342318438945]
RapidInは、トレーニングデータの影響を推定するために、大規模言語モデルに適応するフレームワークである。
RapidInはキャッシュされた勾配を効率よく横切り、数分で影響を推定し、6,326倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-05-20T01:57:34Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Multi-node Bert-pretraining: Cost-efficient Approach [6.5998084177955425]
大規模トランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクの最先端結果にエキサイティングな飛躍をもたらした。
大規模な教師なしデータセットの出現により、単一のトレーニングエポック内のデータサンプルの増加により、トレーニング時間がさらに延長される。
学術的な環境では、適切な時間予算(12日)でBERTの事前訓練を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-01T05:49:20Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。