論文の概要: pathsig: A GPU-Accelerated Library for Truncated and Projected Path Signatures
- arxiv url: http://arxiv.org/abs/2602.24066v1
- Date: Fri, 27 Feb 2026 14:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.471923
- Title: pathsig: A GPU-Accelerated Library for Truncated and Projected Path Signatures
- Title(参考訳): pathsig: Trncated and Projected Path Signature用のGPUアクセラレーションライブラリ
- Authors: Tobias Nygaard,
- Abstract要約: 本稿では,パスシグネチャを直接単語ベースで計算するPyTorchネイティブライブラリであるpathsigを紹介する。
カーネルを用いてプレフィックスクローズドワードセット上で並列にシグネチャ係数を更新することにより、パスティグは高いGPUスループットとほぼ最小のピークメモリを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Path signatures provide a rich representation of sequential data, with strong theoretical guarantees and good performance in a variety of machine-learning tasks. While signatures have progressed from fixed feature extractors to trainable components of machine-learning models, existing libraries often lack the required scalability for large-scale, gradient-based learning. To address this gap, this paper introduces pathsig, a PyTorch-native library that computes path signatures directly in the word basis. By using CUDA kernels to update signature coefficients in parallel over prefix-closed word sets, pathsig achieves high GPU throughput and near-minimal peak memory. Compared with other libraries, pathsig achieves 10-30x speedups for computation of truncated signatures and up to 4-10x speedups in training that require backpropagation through the signature. Beyond regular truncation, pathsig supports projections of the (infinite-dimensional) signature onto user-specified sets of words and anisotropic truncation motivated by inhomogeneous path regularity, enabling more compact representations that can reduce dimensionality, redundancy, and computational cost.
- Abstract(参考訳): パスシグネチャは、さまざまな機械学習タスクにおいて、強力な理論的保証と優れたパフォーマンスを備えた、シーケンシャルデータのリッチな表現を提供する。
シグネチャは固定機能抽出器から機械学習モデルのトレーニング可能なコンポーネントへと進化してきたが、既存のライブラリは大規模で勾配に基づく学習に必要なスケーラビリティを欠いていることが多い。
このギャップに対処するために、PyTorchネイティブライブラリであるpathsigを導入し、単語ベースでパスシグネチャを直接計算する。
CUDAカーネルを用いてプレフィックスクローズドワードセット上で並列にシグネチャ係数を更新することにより、パスティグは高いGPUスループットとほぼ最小のピークメモリを実現する。
他のライブラリと比較すると、pathsigはトランカットされたシグネチャの計算に10~30倍のスピードアップを達成し、シグネチャによるバックプロパゲーションを必要とするトレーニングでは最大4~10倍のスピードアップを達成している。
正規化以外にも、パスシグは(無限次元の)単語の集合への投影と、不均一な経路規則性によって動機付けられた異方的トランケーションをサポートし、次元、冗長性、計算コストを低減できるよりコンパクトな表現を可能にしている。
関連論文リスト
- S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference [11.779449360037518]
S3-Attentionは,長期コンテキスト処理を注目に順応した内因性検索として扱うメモリファースト推論時フレームワークである。
S3-Attentionは、軽量なスパースオートエンコーダを使用して、トランジェントキーとクエリプロジェクションをトップkスパース機能識別子にデコードする。
単一のストリーミングスキャン中にトークンの位置やスパンにCPUベースの逆インデックスマッピング機能を構築する。
論文 参考訳(メタデータ) (2026-01-25T05:25:22Z) - Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers [36.26426380985327]
Diffusion Transformers (DiTs) は、視覚生成における技術の状態を設定しているが、その二次的な自己注意コストは、長いトークンシーケンスへのスケーリングを制限している。
最近のTop-Kスパースアテンションアプローチは、トークンをブロックワイズ表現に圧縮することで、DiTの計算を減らす。
極長トークン列に対するトレーニング可能なスパースアテンション機構であるログ線形スパースアテンション(LLSA)を導入する。
論文 参考訳(メタデータ) (2025-12-18T14:53:12Z) - Hierarchical Token Prepending: Enhancing Information Flow in Decoder-based LLM Embeddings [52.49524240846879]
本稿では,注目レベルの圧縮と読み出しレベルのオーバーシャッシングを緩和する階層型トークンプレッペンディングを提案する。
HTPは、入力をブロックに分割し、ブロックレベルの要約トークンをその後のブロックにプリペンドし、後方情報フローの経路を作成する。
シンプルなアーキテクチャに依存しない方法として、HTPはゼロショットモデルと微調整モデルの両方を強化し、優れた長期文書埋め込みへのスケーラブルなルートを提供する。
論文 参考訳(メタデータ) (2025-11-18T19:37:40Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - pySigLib -- Fast Signature-Based Computations on CPU and GPU [9.126976857662084]
我々は、CPUとGPU上でシグネチャカーネルとシグネチャカーネルの最適化実装を提供する高性能PythonライブラリpySigLibを提案する。
本稿では,既存のライブラリのランタイムのごく一部で精度の高い勾配を提供するシグネチャカーネルの新たな差別化手法を提案する。
論文 参考訳(メタデータ) (2025-09-12T18:00:14Z) - Re-Densification Meets Cross-Scale Propagation: Real-Time Neural Compression of LiDAR Point Clouds [83.39320394656855]
LiDARポイントクラウドは、様々なアプリケーションに基本的だが、高精度スキャンは、かなりのストレージと送信オーバーヘッドを発生させる。
既存の手法では、非順序の点を階層的なオクツリーやボクセル構造に変換して、密度から疎い予測符号化を行うのが一般的である。
筆者らのフレームワークは2つの軽量モジュールから構成されている。まず、Geometry Re-Densification Moduleがエンコードされたスパース幾何を再認識し、より密なスケールで特徴を抽出し、予測符号化のための特徴を再分離する。
論文 参考訳(メタデータ) (2025-08-28T06:36:10Z) - Keras Sig: Efficient Path Signature Computation on GPU in Keras 3 [0.0]
Keras Sigは、ディープラーニングアプリケーションのためのパスシグネチャを計算するために設計された高性能なピソニックライブラリである。
Keras 3で新たに構築された textitKeras Sig は PyTorch や JAX,GPU など,広く使用されているディープラーニングバックエンドとのシームレスな統合を活用している。
論文 参考訳(メタデータ) (2025-01-14T22:00:01Z) - A User's Guide to $\texttt{KSig}$: GPU-Accelerated Computation of the Signature Kernel [12.111848705677138]
シグネチャカーネルは、シーケンシャルおよびテンポラルデータのための正定カーネルである。
この章では、署名カーネルを演算するためのGPUアクセラレーションアルゴリズムを実装した、$textttKSig$、$textttScikit-Learn$互換Pythonパッケージについて短い紹介を行う。
論文 参考訳(メタデータ) (2025-01-13T09:11:13Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [24.04649159686283]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車なしの手法を30%上回り、広く認められた訓練方法さえも25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。