論文の概要: Tempo: Compiled Dynamic Deep Learning with Symbolic Dependence Graphs
- arxiv url: http://arxiv.org/abs/2501.05408v3
- Date: Wed, 08 Oct 2025 11:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:17.910826
- Title: Tempo: Compiled Dynamic Deep Learning with Symbolic Dependence Graphs
- Title(参考訳): Tempo: シンボリック依存グラフによる動的ディープラーニングのコンパイル
- Authors: Pedro F. Silvestre, Peter Pietzuch,
- Abstract要約: グラフベースのコンパイルのプログラム全体の最適化と、熱心な実行のダイナミズムを組み合わせた新しいディープラーニングシステムであるTempoについて述べる。
我々は,Tempo が Llama-3.2-3B 復号化のために JAX 上で 7$times$ の高速化を達成したことを示す。
強化学習アルゴリズムでは、Tempoは54$times$のスピードアップを実現し、16$times$のピークメモリ使用率を下げる。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) algorithms are often defined in terms of temporal relationships: a tensor at one timestep may depend on tensors from earlier or later timesteps. Such dynamic dependencies (and corresponding dynamic tensor shapes) are difficult to express and optimize: while eager DL systems support such dynamism, they cannot apply compiler-based optimizations; graph-based systems require static tensor shapes, which forces users to pad tensors or break-up programs into multiple static graphs. We describe Tempo, a new DL system that combines the dynamism of eager execution with the whole-program optimizations of graph-based compilation. Tempo achieves this through a declarative programming model with recurrent tensors, which include explicit temporal dimensions. Temporal dimensions can be indexed using symbolic expressions to express dynamic dependencies on past and future tensors. Based on this, Tempo constructs a symbolic dependence graph, which concisely encodes dynamic dependencies between operators, and applies whole-program optimizations, such as algebraic simplifications, vectorization, tiling, and fusion. By tiling dynamic dependencies into static-size blocks, Tempo can also reuse existing static code-generators. It then uses a polyhedral model to find a feasible execution schedule, which includes memory management operations. We show that Tempo achieves a 7$\times$ speedup over JAX for Llama-3.2-3B decoding; for reinforcement learning algorithms, Tempo achieves a 54$\times$ speedup, with 16$\times$ lower peak memory usage.
- Abstract(参考訳): 深層学習(DL)アルゴリズムは、時間的関係の観点でしばしば定義される: 1段階のテンソルは、早期または後期のテンソルに依存することがある。
このような動的依存(および対応する動的テンソル形状)は表現や最適化が難しい: 熱心なDLシステムはこのようなダイナミズムをサポートするが、コンパイラベースの最適化は適用できない; グラフベースのシステムは静的テンソル形状を必要とする。
グラフベースのコンパイルのプログラム全体の最適化と、熱心な実行のダイナミズムを組み合わせた新しいDLシステムであるTempoについて述べる。
テンポは宣言型プログラミングモデルによってこれを達成し、テンソルを繰り返す。
時間次元は記号表現を用いてインデックス化することができ、過去と将来のテンソルの動的依存を表現する。
これに基づいてテンポは記号依存グラフを構築し、演算子間の動的依存関係を簡潔にエンコードし、代数的単純化、ベクトル化、タイリング、融合などの全体的な最適化を適用する。
動的依存関係を静的サイズブロックにタイリングすることで、Tempoは既存の静的コードジェネレータを再利用できる。
次に、多面体モデルを使用して、メモリ管理操作を含む実行可能な実行スケジュールを見つける。
我々は,Tempo が Llama-3.2-3B で JAX よりも 7$\times$ のスピードアップを達成したことを示す。
関連論文リスト
- Streaming Tensor Program: A streaming abstraction for dynamic parallelism [3.2194902146668127]
Streaming Program(STeP)は,動的テンソルワークロードを空間データフローアクセラレータ上で効率的に実行可能にする,新たなストリーミング抽象化である。
STePはフレキシブルなルーティング演算子、明示的なメモリ階層、動的データレートとテンソル次元を公開するシンボリックシェイプセマンティクスを導入している。
これらの機能は、動的タイリング、動的並列化、そしてデータフロー効率を保ちながら動的な振る舞いに適応する構成時多重化という新しい最適化を解放する。
論文 参考訳(メタデータ) (2025-11-11T02:49:10Z) - T-GRAB: A Synthetic Diagnostic Benchmark for Learning on Temporal Graphs [6.199165061105655]
時間的グラフ推論ベンチマーク(T-GRAB)を導入し,TGNNの時間的推論能力を体系的に探究する。
T-GRABは、主要な時間的スキルを分離する制御された解釈可能なタスクを提供する。
これらの課題に対して,11の時間グラフ学習手法を評価し,時間パターンを一般化する能力の根本的な欠点を明らかにした。
論文 参考訳(メタデータ) (2025-07-14T11:47:43Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [59.96455188197593]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
DRPruningは、トレーニング中にデータ分散を動的に調整し、不均一なマルチタスクデータ間でのバランス性能を回復する手法である。
単言語および多言語設定の実験では、DRPランニングはプルーニングと継続トレーニングの両方において同様の大きさのモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Supra-Laplacian Encoding for Transformer on Dynamic Graphs [14.293220696079919]
本稿では,時間情報を保持しつつ,GTアーキテクチャの新しいテンポラルエンコーディングを提案する。
具体的には、Time Dynamic Graphplas を多層グラフに変換し、関連する超ラテン行列のスペクトル特性を利用する。
第2のコントリビューションは、動的リンク予測のための正確なエッジ表現を提供するクロスアテンション機構と相互にノードをモデル化する。
論文 参考訳(メタデータ) (2024-09-26T15:56:40Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - Deep Temporal Graph Clustering [77.02070768950145]
深部時間グラフクラスタリング(GC)のための汎用フレームワークを提案する。
GCは、時間グラフの相互作用シーケンスに基づくバッチ処理パターンに適合するディープクラスタリング技術を導入している。
我々のフレームワークは、既存の時間グラフ学習手法の性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-18T06:17:50Z) - RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral
Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。
RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。
我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文 参考訳(メタデータ) (2023-04-10T17:22:12Z) - Self-Supervised Temporal Graph learning with Temporal and Structural Intensity Alignment [53.72873672076391]
時間グラフ学習は、動的情報を用いたグラフベースのタスクのための高品質な表現を生成することを目的としている。
本稿では,時間的および構造的情報の両方を抽出する時間的グラフ学習のためのS2Tという自己教師型手法を提案する。
S2Tは、いくつかのデータセットにおける最先端の競合と比較して、少なくとも10.13%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-02-15T06:36:04Z) - PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs [3.3019914257038168]
ダイナミックグラフニューラルネットワーク(DGNN)は,リンク予測やパンデミック予測など,さまざまなリアルタイムアプリケーションに広く応用されている。
DGNNは、かなりの並列計算とデータ再利用の可能性を示すが、メモリアクセスの非効率性とデータ転送オーバーヘッドに悩まされている。
我々は、GPU上でのエンドツーエンドのパフォーマンス最適化のためのトレーニングフレームワークとして、$underlinetextbfPipelined$と$underlinetextbfDGNNのPiPADを提案する。
論文 参考訳(メタデータ) (2023-01-01T12:10:31Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。
我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。
MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文 参考訳(メタデータ) (2022-10-03T12:34:58Z) - Time-aware Dynamic Graph Embedding for Asynchronous Structural Evolution [60.695162101159134]
既存の作業は、動的グラフを変更のシーケンスとして見るだけである。
動的グラフを接合時間に付随する時間的エッジシーケンスとして定式化する。
頂点とエッジのタイムパン
組み込みにはタイムアウェアなTransformerが提案されている。
vertexの動的接続と学習へのToEs。
頂点表現
論文 参考訳(メタデータ) (2022-07-01T15:32:56Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Efficient Dynamic Graph Representation Learning at Scale [66.62859857734104]
本稿では,学習損失による時間依存性を選択的に表現し,計算の並列性を改善するための効率的な動的グラフ lEarning (EDGE) を提案する。
EDGEは、数百万のノードと数億の時間的イベントを持つ動的グラフにスケールでき、新しい最先端(SOTA)パフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2021-12-14T22:24:53Z) - Dynamic Graph Learning-Neural Network for Multivariate Time Series
Modeling [2.3022070933226217]
静的および動的グラフ学習ニューラルネットワーク(GL)という新しいフレームワークを提案する。
モデルはそれぞれ、データから静的グラフ行列と動的グラフ行列を取得し、長期パターンと短期パターンをモデル化する。
ほぼすべてのデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-12-06T08:19:15Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Accurate, Efficient and Scalable Training of Graph Neural Networks [9.569918335816963]
グラフニューラルネットワーク(GNN)は、グラフ上にノード埋め込みを生成する強力なディープラーニングモデルである。
効率的でスケーラブルな方法でトレーニングを実行することは依然として困難です。
本稿では,最先端のミニバッチ手法と比較して,トレーニング負荷を桁違いに削減する新しい並列トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-05T22:06:23Z) - Time-varying Graph Representation Learning via Higher-Order Skip-Gram
with Negative Sampling [0.456877715768796]
我々は,スキップグラム埋め込み手法が行列分解を暗黙的に行うという事実に基づいて構築する。
負のサンプリングを持つ高次スキップグラムは、ノードと時間の役割を乱すことができることを示す。
提案手法を時間分解型対面近接データを用いて実証的に評価し,学習した時間変化グラフ表現が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T12:04:48Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - L$^2$-GCN: Layer-Wise and Learned Efficient Training of Graph
Convolutional Networks [118.37805042816784]
グラフ畳み込みネットワーク(GCN)は、多くのアプリケーションで人気が高まっているが、大きなグラフデータセットをトレーニングするのは依然として難しい。
本稿では,GCN (L-GCN) のための新しいレイヤワイドトレーニングフレームワークを提案する。
実験の結果、L-GCNは少なくとも1桁の精度で最先端よりも高速であり、メモリ使用量はデータセットのサイズに依存しないことがわかった。
論文 参考訳(メタデータ) (2020-03-30T16:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。