論文の概要: SoftDTW-CUDA-Torch: Memory-Efficient GPU-Accelerated Soft Dynamic Time Warping for PyTorch
- arxiv url: http://arxiv.org/abs/2602.17206v1
- Date: Thu, 19 Feb 2026 09:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.903818
- Title: SoftDTW-CUDA-Torch: Memory-Efficient GPU-Accelerated Soft Dynamic Time Warping for PyTorch
- Title(参考訳): SoftDTW-CUDA-Torch:PyTorchのためのメモリ効率の良いGPU高速化ソフトダイナミックタイムワープ
- Authors: Ron Shapira Weber, Oren Freifeld,
- Abstract要約: 我々は、GPU上でのSoft Dynamic Time Warpingを計算するためのオープンソースのPyTorchライブラリであるSoftdtw-cuda-torchを紹介する。
本実装は,既存のGPU実装であるSoftDTWの3つの重要な制限に対処する。
ライブラリは任意のシーケンス長、完全なPyTorchオートグレード統合、Soft-DTW Barycenterをサポートする。
- 参考スコア(独自算出の注目度): 11.845589863914851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present softdtw-cuda-torch, an open-source PyTorch library for computing Soft Dynamic Time Warping (SoftDTW) on GPUs. Our implementation addresses three key limitations of existing GPU implementations of SoftDTW: a hard sequence-length cap of 1024, numerical instability in the backward pass for small smoothing parameters, and excessive GPU memory consumption from materializing pairwise distance tensors. We introduce (1) tiled anti-diagonal kernel execution that removes the sequence-length constraint, (2) a log-space back-ward pass that prevents floating-point overflow, and (3) a fused distance-computation mode that eliminates the O(BN M ) intermediate distance tensor, achieving up to 98% memory reduction compared to prior work. The library supports arbitrary sequence lengths, full PyTorch autograd integration, and Soft-DTW Barycenter computation. Code is available at https://github.com/BGU-CS-VIL/sdtw-cuda-torch.
- Abstract(参考訳): 我々は、GPU上でSoftDTW(Soft Dynamic Time Warping)を演算するためのオープンソースのPyTorchライブラリであるSofttw-cuda-torchを紹介する。
実装では,SoftDTWのGPU実装における3つの重要な制限に対処する。ハードシーケンス長1024の上限,スムーズなパラメータの後方パスの数値的不安定性,対距離テンソルの具体化による過剰なGPUメモリ消費。
2)浮動小数点オーバーフローを防止するログスペースバックワードパス,(3)O(BN M)中間距離テンソルを排除し,前処理に比べて最大98%のメモリ削減を実現した融合距離計算モードを導入する。
このライブラリは任意のシーケンス長、完全なPyTorchオートグレード統合、Soft-DTW Barycenter計算をサポートする。
コードはhttps://github.com/BGU-CS-VIL/sdtw-cuda-torchで入手できる。
関連論文リスト
- Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - torch-sla: Differentiable Sparse Linear Algebra with Adjoint Solvers and Sparse Tensor Parallelism for PyTorch [0.2960141730774496]
オープンソースのPyTorchライブラリであるTorchslaは、GPUを加速し、スケーラブルで、微分可能なスパース線形代数を可能にする。
torchslaは複数のバックエンド(SciPy、cuDSS、PyTorch-native)をサポートし、エンドツーエンドの微分可能なシミュレーションのためにPyTorch Autogradとシームレスに統合される。
論文 参考訳(メタデータ) (2026-01-20T14:06:01Z) - Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - From Theory to Throughput: CUDA-Optimized APML for Large-Batch 3D Learning [8.063701386493289]
チャンファー距離は効率的であるが、多くの対1の通信が可能である一方、アースマーバー距離は高い計算コストで1対1の輸送をより良く反映している。
APMLは、無視可能な割り当てを閾値付けし、適応性ソフトマックス、双方向対称性、シンクホーンを直接COO形式で保存するスパース実装である。
論文 参考訳(メタデータ) (2025-12-17T23:18:51Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - Keras Sig: Efficient Path Signature Computation on GPU in Keras 3 [0.0]
Keras Sigは、ディープラーニングアプリケーションのためのパスシグネチャを計算するために設計された高性能なピソニックライブラリである。
Keras 3で新たに構築された textitKeras Sig は PyTorch や JAX,GPU など,広く使用されているディープラーニングバックエンドとのシームレスな統合を活用している。
論文 参考訳(メタデータ) (2025-01-14T22:00:01Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Kernel Operations on the GPU, with Autodiff, without Memory Overflows [5.669790037378094]
KeOpsライブラリは、数学的公式によってエントリが与えられるテンソルに対して、高速でメモリ効率のよいGPUサポートを提供する。
KeOpsは、カーネルおよび幾何学的アプリケーションのためのテンソル中心ライブラリの大きなボトルネックであるメモリ消費を緩和する。
KeOpsは、最適化されたC++/CUDAスキームと、Python(NumpyとPyTorch)、Matlab、Rのバインダーを組み合わせる。
論文 参考訳(メタデータ) (2020-03-27T08:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。