論文の概要: cuNNQS-SCI: A Fully GPU-Accelerated Framework for High-Performance Configuration Interaction Selection withNeural Network QQantum States
- arxiv url: http://arxiv.org/abs/2604.15768v1
- Date: Fri, 17 Apr 2026 07:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.78381
- Title: cuNNQS-SCI: A Fully GPU-Accelerated Framework for High-Performance Configuration Interaction Selection withNeural Network QQantum States
- Title(参考訳): cuNNQS-SCI: ニューラルネットワークQQantum状態による高性能構成インタラクション選択のためのフルGPUアクセラレーションフレームワーク
- Authors: Daran Sun, Bowen Kan, Haoquan Long, Hairui Zhao, Haoxu Li, Yicheng Liu, Pengyu Zhou, Ankang Feng, Wenjing Huang, Yida Gu, Zhenyu Li, Honghui Shang, Yunquan Zhang, Dingwen Tao, Ninghui Sun, Guangming Tan,
- Abstract要約: cuNNQS-SCIは、これらのボトルネックを克服するために設計された、完全にGPUアクセラレーションされたSCIフレームワークである。
64GPUのNVIDIA A100クラスタでは、cuNNQS-SCIは最大2.32倍のエンドツーエンドのスピードアップを達成する。
優れた分散パフォーマンスを示し、強力なスケーリングテストで90%以上の並列効率を維持する。
- 参考スコア(独自算出の注目度): 12.436495225801863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-driven methods have demonstrated considerable success in tackling the central challenge of accurately solving the Schrödinger equation for complex many-body systems. Among neural network quantum state (NNQS) approaches, the NNQS-SCI (Selected Configuration Interaction) method stands out as a state-of-the-art technique, recognized for its high accuracy and scalability. However, its application to larger systems is severely constrained by a hybrid CPU-GPU architecture. Specifically, centralized CPU-based global de-duplication creates a severe scalability barrier due to communication bottlenecks, while host-resident coupled-configuration generation induces prohibitive computational overheads. We introduce cuNNQS-SCI, a fully GPU-accelerated SCI framework designed to overcome these bottlenecks. cuNNQS-SCI first integrates a distributed, load-balanced global de-duplication algorithm to minimize redundancy and communication overhead at scale. To address compute limitations, it employs specialized, fine-grained CUDA kernels for exact coupled configuration generation. Finally, to break the single-GPU memory barrier exposed by this full acceleration, it incorporates a GPU memory-centric runtime featuring GPU-side pooling, streaming mini-batches, and overlapped offloading. This design enables much larger configuration spaces and shifts the bottleneck from host-side limitations back to on-device inference. Our evaluation demonstrates that cuNNQS-SCI fundamentally expands the scale of solvable problems. On an NVIDIA A100 cluster with 64 GPUs, cuNNQS-SCI achieves up to 2.32X end-to-end speedup over the highly-optimized NNQS-SCI baseline while preserving the same chemical accuracy. Furthermore, it demonstrates excellent distributed performance, maintaining over 90% parallel efficiency in strong scaling tests.
- Abstract(参考訳): AI駆動の手法は、複雑な多体システムに対するシュレーディンガー方程式を正確に解くという中心的な課題に取り組むことに成功している。
ニューラルネットワーク量子状態(NNQS)アプローチでは、NNQS-SCI(Selected Configuration Interaction)手法が最先端技術として注目され、高い精度とスケーラビリティが認められている。
しかし、その大規模システムへの応用は、ハイブリッドCPU-GPUアーキテクチャによって厳しく制約されている。
特に、集中型CPUベースのグローバルデ複製は、通信ボトルネックによる深刻なスケーラビリティ障壁を生じさせ、ホスト-レジデント結合構成生成は、計算オーバーヘッドを禁止します。
我々は、これらのボトルネックを克服するために設計されたフルGPUアクセラレーションSCIフレームワークであるcuNNQS-SCIを紹介する。
cuNNQS-SCIはまず、分散負荷バランスのグローバルデ重複アルゴリズムを統合して、大規模での冗長性と通信オーバーヘッドを最小限にする。
計算制限に対処するためには、厳密なCUDAカーネルを使用し、正確な構成生成を行う。
最後に、このフルアクセラレーションによって露呈されるシングルGPUメモリ障壁を破るために、GPUサイドプーリング、ストリーミングミニバッチ、重複オフローディングを備えたGPUメモリ中心のランタイムが組み込まれている。
この設計により、はるかに大きな設定スペースが可能になり、ボトルネックをホスト側の制限からデバイス上の推論に戻すことができる。
我々の評価は、cuNNQS-SCIが解決可能な問題の規模を根本的に拡大することを示しています。
64GPUのNVIDIA A100クラスタ上で、cuNNQS-SCIは同じ化学精度を維持しながら、高度に最適化されたNNQS-SCIベースラインよりも最大2.32倍のエンドツーエンドのスピードアップを達成する。
さらに、強力なスケーリングテストにおいて90%以上の並列効率を維持しながら、優れた分散パフォーマンスを示す。
関連論文リスト
- A Scalable Distributed Quantum Optimization Framework via Factor Graph Paradigm [46.08923284345648]
分散量子最適化のための構造認識フレームワークを提案する。
検索スペースが$N$の場合、我々のフレームワークはプロセッサやセパレータに依存した要素に対して$O(sqrtN)$クエリ複雑性を達成する。
構造を考慮した分解は、量子ネットワーク上でのスケーラブルな分散量子最適化に実践的な道をもたらすことを示す。
論文 参考訳(メタデータ) (2026-03-08T15:15:52Z) - CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - Q-GEAR: Improving quantum simulation framework [0.28402080392117757]
本稿では,Qiskit量子回路をCuda-Qカーネルに変換するソフトウェアフレームワークであるQ-Gearを紹介する。
Q-GearはCPUとGPUベースのシミュレーションをそれぞれ、最小のコーディング労力で2桁と10倍に高速化する。
論文 参考訳(メタデータ) (2025-04-04T22:17:51Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。