Fugu-MT 論文翻訳(概要): Keras Sig: Efficient Path Signature Computation on GPU in Keras 3

論文の概要: Keras Sig: Efficient Path Signature Computation on GPU in Keras 3

arxiv url: http://arxiv.org/abs/2501.08455v1
Date: Tue, 14 Jan 2025 22:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.295885
Title: Keras Sig: Efficient Path Signature Computation on GPU in Keras 3
Title（参考訳）: Keras Sig氏: Keras 3のGPU上での効率的なパス署名計算
Authors: Rémi Genet, Hugo Inzirillo,
Abstract要約: Keras Sigは、ディープラーニングアプリケーションのためのパスシグネチャを計算するために設計された高性能なピソニックライブラリである。 Keras 3で新たに構築された textitKeras Sig は PyTorch や JAX,GPU など,広く使用されているディープラーニングバックエンドとのシームレスな統合を活用している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper we introduce Keras Sig a high-performance pythonic library designed to compute path signature for deep learning applications. Entirely built in Keras 3, \textit{Keras Sig} leverages the seamless integration with the mostly used deep learning backends such as PyTorch, JAX and TensorFlow. Inspired by Kidger and Lyons (2021),we proposed a novel approach reshaping signature calculations to leverage GPU parallelism. This adjustment allows us to reduce the training time by 55\% and 5 to 10-fold improvements in direct signature computation compared to existing methods, while maintaining similar CPU performance. Relying on high-level tensor operations instead of low-level C++ code, Keras Sig significantly reduces the versioning and compatibility issues commonly encountered in deep learning libraries, while delivering superior or comparable performance across various hardware configurations. We demonstrate through extensive benchmarking that our approach scales efficiently with the length of input sequences and maintains competitive performance across various signature parameters, though bounded by memory constraints for very large signature dimensions.
Abstract（参考訳）: 本稿では,ディープラーニングアプリケーションのためのパスシグネチャを計算するために設計された高性能なピソニックライブラリであるKeras Sigを紹介する。 Keras 3で新たに構築された \textit{Keras Sig} は PyTorch, JAX, TensorFlow など,主に使用されているディープラーニングバックエンドとのシームレスな統合を活用している。 Kidger and Lyons (2021) にインスパイアされた我々は、GPU並列性を活用するためにシグネチャ計算を再構成する新しいアプローチを提案した。この調整により、トレーニング時間を55倍から5倍から10倍に短縮でき、CPU性能は同等である。低レベルのC++コードではなく、高レベルのテンソル操作を頼りにすることで、Keras Sigは、ディープラーニングライブラリで一般的なバージョン管理と互換性の問題を大幅に軽減し、さまざまなハードウェア構成で優れた、あるいは同等のパフォーマンスを提供する。提案手法は,入力シーケンスの長さで効率よくスケールし,メモリ制約に縛られながら,様々なシグネチャパラメータ間での競合性能を維持可能であることを示す。

関連論文リスト

pathsig: A GPU-Accelerated Library for Truncated and Projected Path Signatures [0.0]
本稿では,パスシグネチャを直接単語ベースで計算するPyTorchネイティブライブラリであるpathsigを紹介する。カーネルを用いてプレフィックスクローズドワードセット上で並列にシグネチャ係数を更新することにより、パスティグは高いGPUスループットとほぼ最小のピークメモリを実現する。
論文参考訳（メタデータ） (2026-02-27T14:56:06Z)
Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文参考訳（メタデータ） (2025-12-24T00:41:13Z)
pySigLib -- Fast Signature-Based Computations on CPU and GPU [9.126976857662084]
我々は、CPUとGPU上でシグネチャカーネルとシグネチャカーネルの最適化実装を提供する高性能PythonライブラリpySigLibを提案する。本稿では,既存のライブラリのランタイムのごく一部で精度の高い勾配を提供するシグネチャカーネルの新たな差別化手法を提案する。
論文参考訳（メタデータ） (2025-09-12T18:00:14Z)
Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける最先端の性能を得る。クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高度に構造化されたスパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。我々は,CGテンソル製品用のGPUスパースカーネルジェネレータを導入し,既存のオープンソース実装とクローズドソース実装の大幅な高速化を実現した。
論文参考訳（メタデータ） (2025-01-23T08:20:47Z)
A User's Guide to $\texttt{KSig}$: GPU-Accelerated Computation of the Signature Kernel [12.111848705677138]
シグネチャカーネルは、シーケンシャルおよびテンポラルデータのための正定カーネルである。この章では、署名カーネルを演算するためのGPUアクセラレーションアルゴリズムを実装した、$textttKSig$、$textttScikit-Learn$互換Pythonパッケージについて短い紹介を行う。
論文参考訳（メタデータ） (2025-01-13T09:11:13Z)
FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness [0.0]
FlashAttentionのようなメソッドは、不要なデータ転送を避けることによって、ネイティブのPyTorchよりもx6パフォーマンスの向上を実現している。本稿では,学習モデルに対するダイアグラム的アプローチを提案する。 AmpereはSMあたり13個のワープに収まるが、Hopperはオーバーラップを改善し、1.22個のPFLOPを達成できる。
論文参考訳（メタデータ） (2024-12-04T13:52:04Z)
Scaling Tractable Probabilistic Circuits: A Systems Perspective [53.76194929291088]
PyJuiceは、いくつかの点で先行技術を改善するPCの一般的な実装設計である。大規模PCのトレーニングでは、既存のシステムよりも1～2桁高速である。 PyJuiceは2～5倍のメモリを消費するので、より大きなモデルをトレーニングすることができます。
論文参考訳（メタデータ） (2024-06-02T14:57:00Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
High Performance Computing Applied to Logistic Regression: A CPU and GPU Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文参考訳（メタデータ） (2023-08-19T14:49:37Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-09-18T14:33:49Z)
Stochastic Gradient Descent without Full Data Shuffle [65.97105896033815]
CorgiPileは階層的なデータシャッフル戦略で、完全なデータシャッフルを回避すると同時に、完全なシャッフルを実行したかのようにSGDの収束率を同等に維持する。以上の結果から,CorgiPileは深層学習モデルと一般化線形モデルの両方において,全シャッフルベースSGDと同等の収束率を達成できることが示唆された。
論文参考訳（メタデータ） (2022-06-12T20:04:31Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Kernel Operations on the GPU, with Autodiff, without Memory Overflows [5.669790037378094]
KeOpsライブラリは、数学的公式によってエントリが与えられるテンソルに対して、高速でメモリ効率のよいGPUサポートを提供する。 KeOpsは、カーネルおよび幾何学的アプリケーションのためのテンソル中心ライブラリの大きなボトルネックであるメモリ消費を緩和する。 KeOpsは、最適化されたC++/CUDAスキームと、Python(NumpyとPyTorch)、Matlab、Rのバインダーを組み合わせる。
論文参考訳（メタデータ） (2020-03-27T08:54:10Z)
Signatory: differentiable computations of the signature and logsignature transforms, on both CPU and GPU [13.503274710499971]
Signatoryは、シグネチャおよびログシグネチャ変換に関連する機能を計算し、実行するライブラリである。これは、効率的な事前計算戦略など、以前のライブラリでは利用できない新機能を実装している。ライブラリはC++のPythonラッパーとして動作し、PyTorchエコシステムと互換性がある。
論文参考訳（メタデータ） (2020-01-03T03:15:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。