論文の概要: Adaptation of AI-accelerated CFD Simulations to the IPU platform
- arxiv url: http://arxiv.org/abs/2605.00462v1
- Date: Fri, 01 May 2026 06:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.886459
- Title: Adaptation of AI-accelerated CFD Simulations to the IPU platform
- Title(参考訳): AI加速CFDシミュレーションのIPUプラットフォームへの適応
- Authors: P. Rosciszewski, A. Krzywaniak, S. Iserte, K. Rojek, P. Gepner,
- Abstract要約: インテリジェンス処理ユニット(IPU)は多くのAIアプリケーションで有用であることが証明されている。
ホスト側のIPUにトレーニングデータを供給し、最大34%のスピードアップを達成する上で、パフォーマンス上のボトルネックを克服する方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Intelligence Processing Units (IPU) have proven useful for many AI applications. In this paper, we evaluate them within the emerging field of \emph{AI for simulation}, where traditional numerical simulations are supported by artificial intelligence approaches. We focus specifically on a program for training machine learning models supporting a \emph{computational fluid dynamics} application. We use custom TensorFlow provided by the Poplar SDK to adapt the program for the IPU-POD16 platform and investigate its ease of use and performance scalability. Training a model on data from OpenFOAM simulations allows us to get accurate simulation state predictions in test time. We show how to utilize the \emph{popdist} library to overcome a performance bottleneck in feeding training data to the IPU on the host side, achieving up to 34\% speedup. Due to communication overheads, using data parallelism to utilize two IPUs instead of one does not improve the throughput. However, once the intra-IPU costs have been paid, the hardware capabilities for inter-IPU communication allow for good scalability. Increasing the number of IPUs from 2 to 16 improves the throughput from 560.8 to 2805.8 samples/s.
- Abstract(参考訳): インテリジェンス処理ユニット(IPU)は多くのAIアプリケーションで有用であることが証明されている。
本稿では,従来の数値シミュレーションを人工知能のアプローチで支援する「シミュレーションのためのemph{AI」の新興分野における評価を行う。
本稿では,emph{computational fluid dynamics}アプリケーションをサポートする機械学習モデルをトレーニングするプログラムに焦点をあてる。
我々は、Poplar SDKが提供するカスタムTensorFlowを使用して、IPU-POD16プラットフォーム用のプログラムを適応させ、その使いやすさとパフォーマンスのスケーラビリティを調査します。
OpenFOAMシミュレーションからデータに基づいてモデルをトレーニングすることで、テスト時間内で正確なシミュレーション状態の予測を行うことができる。
ホスト側のIPUにトレーニングデータを送出する際のパフォーマンスボトルネックを克服するために, \emph{popdist}ライブラリを利用する方法を示し, 最大34倍のスピードアップを実現した。
通信オーバヘッドのため、データ並列処理を使用して1つではなく2つのIPUを使用する場合、スループットは向上しない。
しかし、IPU内コストが支払われると、IPU間通信のハードウェア機能によりスケーラビリティが向上する。
IPUの数を2から16に増やすと、560.8から2805.8サンプル/sにスループットが向上する。
関連論文リスト
- EventQueues: Autodifferentiable spike event queues for brain simulation on AI accelerators [0.4349640169711269]
スパイキングニューラルネットワーク(SNN)は、計算神経科学とニューロモーフィック機械学習の中心である。
勾配ベースのSNNは通常、密度の高いメモリ重データ構造を使用してスパーススパイクイベントを実装する。
遅延を含むスパイクイベントキューを通じて勾配を導出し、メモリ効率の高い勾配対応イベントキュー構造を実装することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-12-05T17:39:59Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Automatic AI Model Selection for Wireless Systems: Online Learning via Digital Twinning [50.332027356848094]
AIベースのアプリケーションは、スケジューリングや電力制御などの機能を実行するために、インテリジェントコントローラにデプロイされる。
コンテキストとAIモデルのパラメータのマッピングは、ゼロショット方式で理想的に行われる。
本稿では,AMSマッピングのオンライン最適化のための一般的な手法を紹介する。
論文 参考訳(メタデータ) (2024-06-22T11:17:50Z) - Insight Gained from Migrating a Machine Learning Model to Intelligence Processing Units [8.782847610934635]
インテリジェンス処理ユニット(IPU)は、機械学習(ML)アプリケーションのためのGPUに代わる実行可能なアクセラレータを提供する。
本稿では,GPU から IPU へモデルを移行するプロセスについて検討し,パイプライニングや勾配蓄積などの最適化手法について検討する。
従来のColossus IPUと比較して,Bow IPUの性能は大幅に向上した。
論文 参考訳(メタデータ) (2024-04-16T17:02:52Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Exploration of TPUs for AI Applications [0.0]
Processing Units (TPU) は、Googleが開発したディープラーニングのためのハードウェアアクセラレーターである。
本稿では、クラウドおよびエッジコンピューティングにおけるTPUを、AIアプリケーションに焦点をあてて検討することを目的とする。
論文 参考訳(メタデータ) (2023-09-16T07:58:05Z) - Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units [0.0]
本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
本稿では,TPU-IMACアーキテクチャ上にモデルをデプロイする際の潜在的な精度低下を軽減するために,混合精度トレーニング手法を取り入れた統合学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T19:44:56Z) - Tricking AI chips into Simulating the Human Brain: A Detailed
Performance Analysis [0.5354801701968198]
脳シミュレーションでは、複数の最先端AIチップ(Graphcore IPU、GroqChip、劣悪なCoreを持つNvidia GPU、Google TPU)を評価した。
性能解析の結果,シミュレーション問題はGPUとTPUアーキテクチャに極めてよく対応していることがわかった。
GroqChipは、小さなネットワークにおいて両方のプラットフォームより優れているが、精度の低い浮動小数点演算を実装しているため、脳シミュレーションではまだ利用できない。
論文 参考訳(メタデータ) (2023-01-31T13:51:37Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。