論文の概要: Caspar: CUDA Accelerator for Symbolic Programming with Adaptive Reordering
- arxiv url: http://arxiv.org/abs/2605.30583v1
- Date: Thu, 28 May 2026 21:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.242035
- Title: Caspar: CUDA Accelerator for Symbolic Programming with Adaptive Reordering
- Title(参考訳): Caspar: Adaptive ReorderingによるシンボリックプログラミングのためのCUDAアクセラレータ
- Authors: Emil Martens, Aaron Miller, Matias Varnum, Annette Stahl,
- Abstract要約: Casparは、最新のGPUのパワーをロボティクスでより使いやすくするライブラリである。
Pythonの表現型シンボリックプログラミングとC++の高性能GPUのギャップを埋める。
最良の選択肢の5倍から20倍高速で、メモリを少なくし、同じ精度を実現している。
- 参考スコア(独自算出の注目度): 0.6126439793474977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Caspar, a library that makes the power of modern GPUs more accessible in robotics and provides a state-of-the-art nonlinear GPU solver that can be applied to a wide range of different optimization problems. Caspar bridges the gap between expressive symbolic programming in Python and high-performance GPU runtimes in C++ by automatically generating optimized CUDA kernels from symbolic expressions. Building on the SymForce library, users can easily define and combine symbolic expressions, including Lie group operations, to generate custom CUDA kernels. To use Caspar as a solver, users need only define the symbolic residual functions; Caspar then uses symbolic differentiation to generate the necessary GPU kernels and interfaces to perform nonlinear optimization. In this paper, we present the core components of Caspar and showcase its performance by performing bundle adjustment on the Bundle Adjustment in the Large (BAL) dataset. We benchmark Caspar against other state-of-the-art bundle adjusters and show that it is 5 to 20 times faster than the best alternative, requires less memory, and achieves similar accuracy. This illustrates the benefit of our symbolic GPU programming approach. Caspar is released as part of SymForce and is freely available at https://github.com/symforce-org/symforce
- Abstract(参考訳): 最新のGPUのパワーをロボティクスでより利用しやすくするライブラリであるCasparは、さまざまな最適化問題に適用可能な最先端の非線形GPUソルバを提供する。
Casparは、Pythonの表現型シンボリックプログラミングとC++の高性能GPUランタイムのギャップを埋め、シンボリック表現から最適化されたCUDAカーネルを自動的に生成する。
SymForceライブラリ上に構築されているユーザは、Lieグループ操作を含むシンボリック表現を定義して組み合わせて、カスタムCUDAカーネルを生成することができる。
Casparはシンボリックな差別化を使用して、非線型最適化を行うために必要なGPUカーネルとインターフェースを生成する。
本稿では,Casparのコアコンポーネントについて述べるとともに,BALデータセットのバンドル調整を行い,その性能を示す。
我々はCasparを他の最先端バンドル調整器と比較し、最も優れた代替品の5倍から20倍高速であり、メモリを少なくし、同様の精度を実現していることを示す。
これは、私たちのシンボリックGPUプログラミングアプローチの利点を示しています。
CasparはSymForceの一部としてリリースされ、https://github.com/symforce-org/symforceで無料で利用できる。
関連論文リスト
- GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。
我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。
我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文 参考訳(メタデータ) (2026-02-10T16:18:04Z) - Scalable GPU-Accelerated Euler Characteristic Curves: Optimization and Differentiable Learning for PyTorch [0.0]
我々は,Euler Characteristics Curve(ECC)向けに最適化されたGPUカーネルを提案し,合成グリッド上でのGPU実装よりも16-2000"Oの高速化を実現した。
エンドツーエンドの学習を可能にする差別化可能なPyTorch層を導入する。
論文 参考訳(メタデータ) (2025-10-23T06:59:07Z) - PyGraph: Robust Compiler Support for CUDA Graphs in PyTorch [1.2334708058524546]
我々はPyTorch2内でNVIDIA Graphのパワーを自動で活用する新しいアプローチであるPyGraphを紹介する。
我々はPyGraphをさまざまな機械学習ベンチマークで評価し、PyTorch2よりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2025-03-25T15:47:54Z) - Cheddar: A Swift Fully Homomorphic Encryption Library Designed for GPU Architectures [2.613335121517245]
完全なホモモルフィック暗号化(FHE)は、暗号化されたデータに対するセキュアな計算を可能にすることによって、クラウドコンピューティングをプライバシの懸念から解放する。
我々は、GPUのための高性能なFHEライブラリであるCheddarを紹介し、従来のGPU実装よりも大幅に高速化した。
論文 参考訳(メタデータ) (2024-07-17T23:49:18Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Kernel Operations on the GPU, with Autodiff, without Memory Overflows [5.669790037378094]
KeOpsライブラリは、数学的公式によってエントリが与えられるテンソルに対して、高速でメモリ効率のよいGPUサポートを提供する。
KeOpsは、カーネルおよび幾何学的アプリケーションのためのテンソル中心ライブラリの大きなボトルネックであるメモリ消費を緩和する。
KeOpsは、最適化されたC++/CUDAスキームと、Python(NumpyとPyTorch)、Matlab、Rのバインダーを組み合わせる。
論文 参考訳(メタデータ) (2020-03-27T08:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。