論文の概要: From Theory to Throughput: CUDA-Optimized APML for Large-Batch 3D Learning
- arxiv url: http://arxiv.org/abs/2512.19743v1
- Date: Wed, 17 Dec 2025 23:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.618616
- Title: From Theory to Throughput: CUDA-Optimized APML for Large-Batch 3D Learning
- Title(参考訳): 理論からアウトプットへ:CUDA最適化APMLによる大規模バッチ3D学習
- Authors: Sasan Sharifipour, Constantino Álvarez Casado, Manuel Lage Cañellas, Miguel Bordallo López,
- Abstract要約: チャンファー距離は効率的であるが、多くの対1の通信が可能である一方、アースマーバー距離は高い計算コストで1対1の輸送をより良く反映している。
APMLは、無視可能な割り当てを閾値付けし、適応性ソフトマックス、双方向対称性、シンクホーンを直接COO形式で保存するスパース実装である。
- 参考スコア(独自算出の注目度): 8.063701386493289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Loss functions are fundamental to learning accurate 3D point cloud models, yet common choices trade geometric fidelity for computational cost. Chamfer Distance is efficient but permits many-to-one correspondences, while Earth Mover Distance better reflects one-to-one transport at high computational cost. APML approximates transport with differentiable Sinkhorn iterations and an analytically derived temperature, but its dense formulation scales quadratically in memory. We present CUDA-APML, a sparse GPU implementation that thresholds negligible assignments and runs adaptive softmax, bidirectional symmetrization, and Sinkhorn normalization directly in COO form. This yields near-linear memory scaling and preserves gradients on the stored support, while pairwise distance evaluation remains quadratic in the current implementation. On ShapeNet and MM-Fi, CUDA-APML matches dense APML within a small tolerance while reducing peak GPU memory by 99.9%. Code available at: https://github.com/Multimodal-Sensing-Lab/apml
- Abstract(参考訳): 損失関数は正確な3Dポイントクラウドモデルを学ぶのに基本的だが、一般的な選択は計算コストのために幾何学的忠実さを交換する。
チャンファー距離は効率的であるが、多くの対1の通信が可能である一方、アースマーバー距離は高い計算コストで1対1の輸送をより良く反映する。
APMLは、微分可能なシンクホーン反復と解析的に導出された温度で輸送を近似するが、その密度の強い定式化は記憶において2次にスケールする。
本稿では, 適応型ソフトマックス, 双方向対称性, シンクホーン正規化を COO 形式で直接実行する, 疎GPU実装であるCUDA-APMLを提案する。
これにより、ほぼ線形のメモリスケーリングが得られ、保存されたサポートの勾配が保たれる一方で、現在の実装ではペアワイズ距離の評価が二次的のままである。
ShapeNetとMM-Fiでは、CUDA-APMLは、ピークGPUメモリを99.9%削減しながら、小さな許容範囲内で密度の高いAPMLにマッチする。
https://github.com/Multimodal-Sensing-Lab/apml
関連論文リスト
- Space Filling Curves is All You Need: Communication-Avoiding Matrix Multiplication Made Simple [42.09057806159106]
一般行列乗算はディープラーニングとHPCワークロードの基盤である。
行列乗算アクセラレータを持つ現代のプラットフォームは高いFLOP/Byteマシンバランスを示す。
この作業では、この面倒なチューニングの問題を緩和するために、空間充填曲線 (SFC) を再検討する。
我々は,データ局所性を本質的に高次に示す,プラットフォーム指向および形状指向の行列乗算スキームを得る。
論文 参考訳(メタデータ) (2026-01-22T19:56:16Z) - APML: Adaptive Probabilistic Matching Loss for Robust 3D Point Cloud Reconstruction [16.82777427285544]
点クラウド予測タスクのためのディープラーニングモデルのトレーニングは、予測点と接地真実点の差を測定する損失関数に大きく依存する。
本稿では,一対一マッチングの完全微分可能近似である適応確率マッチング損失(APML)を提案する。
温度を解析的に計算して最小限の確率を保証し、手動チューニングを除去する。
論文 参考訳(メタデータ) (2025-09-09T19:31:06Z) - Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Scalable Optimal Transport in High Dimensions for Graph Distances,
Embedding Alignment, and More [7.484063729015126]
最適輸送のためのコスト行列の2つの効率的な対数線形時間近似を提案する。
これらの近似は、複雑な高次元空間に対してもよく機能するエントロピー規則化OTに対する一般的な対数線形時間アルゴリズムを可能にする。
グラフ距離回帰のために,グラフニューラルネットワーク(GNN)と拡張シンクホーンを組み合わせたグラフトランスポートネットワーク(GTN)を提案する。
論文 参考訳(メタデータ) (2021-07-14T17:40:08Z) - Fast and Scalable Optimal Transport for Brain Tractograms [4.610968512889579]
線形メモリフットプリント上での正規化最適輸送問題を解くための新しいマルチスケールアルゴリズムを提案する。
本手法は, ファイバー束やトラック密度マップとしてモデル化された脳幹図に対して有効性を示す。
論文 参考訳(メタデータ) (2021-07-05T13:28:41Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。