論文の概要: Tensor-Compressed and Fully-Quantized Training of Neural PDE Solvers
- arxiv url: http://arxiv.org/abs/2512.09202v1
- Date: Wed, 10 Dec 2025 00:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.350787
- Title: Tensor-Compressed and Fully-Quantized Training of Neural PDE Solvers
- Title(参考訳): テンソル圧縮と完全量子化によるニューラルPDE解の学習
- Authors: Jinming Lu, Jiayi Tian, Yequan Zhao, Hai Li, Zheng Zhang,
- Abstract要約: 本稿では,エッジデバイス上でのスケーラブルかつエネルギー効率の高いPINNトレーニングを実現するフレームワークを提案する。
この作業により、エッジデバイス上でリアルタイムのPDE解決が可能になり、大規模なエネルギー効率の高い科学計算の道を開くことができる。
- 参考スコア(独自算出の注目度): 10.320585073024455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physics-Informed Neural Networks (PINNs) have emerged as a promising paradigm for solving partial differential equations (PDEs) by embedding physical laws into neural network training objectives. However, their deployment on resource-constrained platforms is hindered by substantial computational and memory overhead, primarily stemming from higher-order automatic differentiation, intensive tensor operations, and reliance on full-precision arithmetic. To address these challenges, we present a framework that enables scalable and energy-efficient PINN training on edge devices. This framework integrates fully quantized training, Stein's estimator (SE)-based residual loss computation, and tensor-train (TT) decomposition for weight compression. It contributes three key innovations: (1) a mixed-precision training method that use a square-block MX (SMX) format to eliminate data duplication during backpropagation; (2) a difference-based quantization scheme for the Stein's estimator that mitigates underflow; and (3) a partial-reconstruction scheme (PRS) for TT-Layers that reduces quantization-error accumulation. We further design PINTA, a precision-scalable hardware accelerator, to fully exploit the performance of the framework. Experiments on the 2-D Poisson, 20-D Hamilton-Jacobi-Bellman (HJB), and 100-D Heat equations demonstrate that the proposed framework achieves accuracy comparable to or better than full-precision, uncompressed baselines while delivering 5.5x to 83.5x speedups and 159.6x to 2324.1x energy savings. This work enables real-time PDE solving on edge devices and paves the way for energy-efficient scientific computing at scale.
- Abstract(参考訳): 物理インフォームドニューラルネットワーク(PINN)は、物理法則をニューラルネットワークトレーニングの目的に組み込むことにより、偏微分方程式(PDE)を解くための有望なパラダイムとして登場した。
しかし、リソース制約のあるプラットフォームへの展開は、高次の自動微分、集中テンソル演算、完全精度演算への依存など、計算とメモリのオーバーヘッドがかなり大きいため妨げられている。
これらの課題に対処するために、エッジデバイス上でスケーラブルでエネルギー効率の良いPINNトレーニングを可能にするフレームワークを提案する。
このフレームワークは、完全に量子化されたトレーニング、スタイン推定器(SE)ベースの残留損失計算、重量圧縮のためのテンソルトレイン(TT)分解を統合している。
バックプロパゲーション中のデータの重複を解消するための2乗ブロックMX(SMX)フォーマットを用いた混合精度トレーニング手法,(2)アンダーフローを緩和するスタイン推定器の差分に基づく量子化スキーム,(3)量子化エラーの蓄積を低減するTT-Layersの部分再構成スキーム(PRS)である。
さらに,ハードウェアアクセラレーションであるPINTAを設計し,フレームワークの性能を十分に活用する。
2-Dポアソン、20-Dハミルトン-ヤコビ-ベルマン(HJB)、100-Dヒート方程式の実験により、提案されたフレームワークは5.5倍から83.5倍のスピードアップと159.6倍から2324.1倍の省エネを実現し、完全精度の非圧縮ベースラインに匹敵する精度を達成した。
この作業により、エッジデバイス上でリアルタイムのPDE解決が可能になり、大規模なエネルギー効率の高い科学計算の道を開くことができる。
関連論文リスト
- Mixed Precision Training of Neural ODEs [1.3382837742547355]
本稿では,ニューラルネットワークのための混合精度学習フレームワークを提案する。
明示的なODEソルバとカスタムバックプロパゲーションスキームを組み合わせる。
約50%のメモリ削減と最大2倍のスピードアップを実現し、精度は単精度トレーニングに匹敵する。
論文 参考訳(メタデータ) (2025-10-27T16:32:56Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - PhysicsCorrect: A Training-Free Approach for Stable Neural PDE Simulations [4.7903561901859355]
予測ステップ毎にPDE整合性を強制する,トレーニング不要な修正フレームワークであるNyberCorrectを提案する。
私たちの重要なイノベーションは、オフラインのウォームアップフェーズでJacobianとその擬似逆をプリ計算する効率的なキャッシュ戦略です。
3つの代表的なPDEシステムにおいて、物理コレクトは予測誤差を最大100倍に削減し、無視可能な推論時間を加算する。
論文 参考訳(メタデータ) (2025-07-03T01:22:57Z) - Enabling Automatic Differentiation with Mollified Graph Neural Operators [73.52999622724101]
本稿では,自動微分と任意のジオメトリの正確な勾配を求める最初の手法であるモリファイドグラフニューラル演算子(m$GNO)を提案する。
正規格子上のPDEの例では、$m$GNOとオートグレードの組み合わせにより、L2相対データの誤差は有限差に比べて20倍減少した。
また、物理損失のみを使用し、有限差分に必要な分解能よりもはるかに低い精度で、非構造化点雲上のPDEをシームレスに解くことができる。
論文 参考訳(メタデータ) (2025-04-11T06:16:30Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - TensorGRaD: Tensor Gradient Robust Decomposition for Memory-Efficient Neural Operator Training [91.8932638236073]
textbfTensorGRaDは,重み付けに伴うメモリ問題に直接対処する新しい手法である。
SparseGRaD は総メモリ使用量を 50% 以上削減し,同時に精度も向上することを示した。
論文 参考訳(メタデータ) (2025-01-04T20:51:51Z) - PLUM: Improving Inference Efficiency By Leveraging Repetition-Sparsity Trade-Off [2.326200609038491]
量子化とスパシティは、ハードウェア・ソフトウェア・インタフェースにおけるテンソル内の繰り返しとスパシティに変換する重要な技術である。
本稿では,反復スパーシティートレードオフの概念を導入し,推論時の計算効率を説明する。
本稿では、推論システムと量子化を統合し、繰り返しスパーシティトレードオフを利用する統一型協調設計フレームワークPLUMを提案する。
論文 参考訳(メタデータ) (2023-12-04T02:33:53Z) - Efficient Neural PDE-Solvers using Quantization Aware Training [71.0934372968972]
量子化は、性能を維持しながら推論の計算コストを下げることができることを示す。
4つの標準PDEデータセットと3つのネットワークアーキテクチャの結果、量子化対応のトレーニングは、設定と3桁のFLOPで機能することがわかった。
論文 参考訳(メタデータ) (2023-08-14T09:21:19Z) - Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks [2.666640112616559]
ニューラルネットワークモデルのイントレーニング量子化手法を提案する。
本手法は,混合精度モデルの学習中に各層に対するビット幅を計算する。
VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットの実験を行います。
論文 参考訳(メタデータ) (2021-01-12T09:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。