論文の概要: Hierarchical Transformer Preconditioning for Interactive Physics Simulation
- arxiv url: http://arxiv.org/abs/2605.13343v2
- Date: Thu, 14 May 2026 03:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.91954
- Title: Hierarchical Transformer Preconditioning for Interactive Physics Simulation
- Title(参考訳): 対話型物理シミュレーションのための階層型トランスプレコンディショニング
- Authors: Carl Osborne, Minghao Guo, Crystal Owens, Wojciech Matusik,
- Abstract要約: 階層型トランスフォーマープレコンディショナー(Hierarchical Transformer Preconditioner)は、弱い許容率のH行列分割に固定されたニューラルプレコンディショナーである。
ネットワークは低ランクの遠距離因子を通して逆をモデル化する。
高速道路の接続を利用して、奥行きを隔ててコンテキストを伝播する。
- 参考スコア(独自算出の注目度): 28.137076331332413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural preconditioners for real-time physics simulation offer promising data-driven priors, but they often fail to capture long-range couplings efficiently because they inherit local message passing or sparse-operator access patterns. We introduce the Hierarchical Transformer Preconditioner, a neural preconditioner anchored to a weak-admissibility H-matrix partition. The partition provides a multiscale structural prior (dense diagonal leaves plus coarsening off-diagonal tiles) that enables full-graph approximate-inverse computation with O(N) scaling at fixed block sizes. The network models the inverse through low-rank far-field factors and uses highway connections (axial buffers plus a global summary token) to propagate context across transformer depth. At each PCG iteration, preconditioner application reduces to batched dense GEMMs with regular memory access. The key training contribution is a cosine-Hutchinson probe objective that learns the action of MA on convergence-critical spectral subspaces, optimizing angular alignment of MAz with z rather than forcing eigenvalue clusters to a prescribed location. This removes unnecessary spectral-placement constraints from SAI-style objectives and improves conditioning on irregular spectra. Because both inference and apply are dense, dependency-free tensor programs, the full solve loop is captured as a single CUDA Graph. On stiff multiphase Poisson systems (up to 100:1 density contrast, N = 1,024-16,384), the solver runs from ~143 to ~21 fps. At N = 8,192, it reaches 17.9 ms/frame, with 2.2x speedup over GPU Jacobi, ~28x over GPU IC/DILU (AMGX multicolor_dilu), and 2.7x over neural SPAI retrained per scale on the same benchmark.
- Abstract(参考訳): リアルタイム物理シミュレーションのためのニューラルプレコンディショナーは、有望なデータ駆動型プリコンディショナーを提供するが、ローカルメッセージパッシングやスパースオペレーショナルアクセスパターンを継承するため、長距離結合を効率的にキャプチャすることができないことが多い。
階層型トランスフォーマープレコンディショナー(H-matrixパーティションに固定されたニューラルプレコンディショナー)を導入する。
このパーティションは、O(N)スケールの固定ブロックサイズでのフルグラフ近似逆計算を可能にする、マルチスケールな事前構造(密度の高い対角線の葉と粗い対角線のタイル)を提供する。
ネットワークは低ランクの遠距離因子を通して逆をモデル化し、ハイウェイ接続(軸バッファと大域的な要約トークン)を使用して、トランスフォーマーの深さを越えてコンテキストを伝搬する。
各PCGイテレーションにおいて、プレコンディショナーアプリケーションは、通常のメモリアクセスを伴うバッチ化された高密度GEMMに還元される。
主要なトレーニングコントリビューションはコサイン・ハッチンソンプローブの目的であり、収束臨界スペクトル部分空間におけるMAの作用を学習し、固有値クラスタを所定の位置に強制するのではなく、MAzとzとの角度アライメントを最適化する。
これにより、不必要なスペクトル配置制約をSAIスタイルの目的から取り除き、不規則スペクトルの条件付けを改善する。
推論と適用の両方が高密度で依存性のないテンソルプログラムであるため、完全な解ループは単一のCUDAグラフとしてキャプチャされる。
剛性多相ポアソン系(100:1密度コントラスト、N = 1,024-16,384)では、解法は143 fpsから21 fpsまで動作する。
N = 8,192 では、GPU Jacobi の2.2倍、GPU IC/DILU (AMGX multicolor_dilu) の2.7倍の2.9ms/frameに達している。
関連論文リスト
- Scalable Mean-Variance Portfolio Optimization via Subspace Embeddings and GPU-Friendly Nesterov-Accelerated Projected Gradient [0.17188280334580197]
我々は,GPUアクセラレーションを備えたスケッチベース因子削減法とNesterov加速投影勾配アルゴリズム(NPGA)を開発した。
実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間・実時間
論文 参考訳(メタデータ) (2026-04-03T09:35:05Z) - From Theory to Throughput: CUDA-Optimized APML for Large-Batch 3D Learning [8.063701386493289]
チャンファー距離は効率的であるが、多くの対1の通信が可能である一方、アースマーバー距離は高い計算コストで1対1の輸送をより良く反映している。
APMLは、無視可能な割り当てを閾値付けし、適応性ソフトマックス、双方向対称性、シンクホーンを直接COO形式で保存するスパース実装である。
論文 参考訳(メタデータ) (2025-12-17T23:18:51Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state [0.1572025118388268]
本稿では,流体力学シミュレーションにおける保守的・原始的逆転を高速化する機械学習(ML)手法を提案する。
我々は、フィードフォワードニューラルネットワーク(NNC2PSとNC2PL)を採用し、PyTorchでトレーニングし、NVIDIARTを用いたGPU推論に最適化した。
NNC2PS推論用の混合精度RTエンジンは、データセットサイズ1000,000点の従来のシングルスレッド実装よりも約400倍高速である。
論文 参考訳(メタデータ) (2024-12-10T19:00:01Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。