論文の概要: Multi-task parallelism for robust pre-training of graph foundation models on multi-source, multi-fidelity atomistic modeling data
- arxiv url: http://arxiv.org/abs/2506.21788v1
- Date: Thu, 26 Jun 2025 22:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.021056
- Title: Multi-task parallelism for robust pre-training of graph foundation models on multi-source, multi-fidelity atomistic modeling data
- Title(参考訳): マルチソース多忠実原子モデルデータに基づくグラフ基礎モデルの頑健な事前学習のためのマルチタスク並列性
- Authors: Massimiliano Lupo Pasini, Jong Youl Choi, Pei Zhang, Kshitij Mehta, Rylie Weaver, Ashwin M. Aji, Karl W. Schulz, Jorda Polo, Prasanna Balaprakash,
- Abstract要約: グラフニューラルネットワークを用いたグラフ基盤モデルは、持続的で効率的な原子論的モデリングを約束する。
プレトレーニング中のマルチソース・マルチ忠実データ処理の課題に対処するために、近年の研究ではマルチタスク学習を採用している。
本稿では,GPUアクセラレーションを用いたマルチタスク並列化手法を提案する。
- 参考スコア(独自算出の注目度): 4.3387776186428
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Graph foundation models using graph neural networks promise sustainable, efficient atomistic modeling. To tackle challenges of processing multi-source, multi-fidelity data during pre-training, recent studies employ multi-task learning, in which shared message passing layers initially process input atomistic structures regardless of source, then route them to multiple decoding heads that predict data-specific outputs. This approach stabilizes pre-training and enhances a model's transferability to unexplored chemical regions. Preliminary results on approximately four million structures are encouraging, yet questions remain about generalizability to larger, more diverse datasets and scalability on supercomputers. We propose a multi-task parallelism method that distributes each head across computing resources with GPU acceleration. Implemented in the open-source HydraGNN architecture, our method was trained on over 24 million structures from five datasets and tested on the Perlmutter, Aurora, and Frontier supercomputers, demonstrating efficient scaling on all three highly heterogeneous super-computing architectures.
- Abstract(参考訳): グラフニューラルネットワークを用いたグラフ基盤モデルは、持続的で効率的な原子論的モデリングを約束する。
プレトレーニング中のマルチソース・マルチ忠実データ処理の課題に対処するため、最近の研究ではマルチタスク学習を用いて、共有メッセージパッシング層は、ソースに関係なく最初に入力原子構造を処理し、データ固有の出力を予測する複数の復号ヘッドにルーティングする。
このアプローチは事前学習を安定化し、探索されていない化学領域へのモデルの転送可能性を高める。
約400万の構造物に関する予備的な結果は奨励されているが、より大きな、より多様なデータセットへの一般化性とスーパーコンピュータのスケーラビリティに関する疑問は残る。
本稿では,GPUアクセラレーションを用いたマルチタスク並列化手法を提案する。
オープンソースのHydraGNNアーキテクチャで実装され、5つのデータセットから2400万以上の構造をトレーニングし、Perlmutter、Aurora、Frontierのスーパーコンピュータ上でテストした。
関連論文リスト
- OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training [16.91538022228882]
大規模基盤モデル(LFM)をトレーニングするための現代的なフレームワークでは、データ並列方式でデータローダを採用している。
本稿では,産業用分散データロードアーキテクチャであるOmniloadについて述べる。
論文 参考訳(メタデータ) (2025-04-14T03:31:22Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Consistency Training of Multi-exit Architectures for Sensor Data [0.07614628596146598]
本稿では,一貫した出口訓練(Continuous exit training)と呼ばれるマルチエクイットアーキテクチャの堅牢なトレーニングのための,新規かつアーキテクチャに依存しないアプローチを提案する。
弱監督を利用して、モデルの出力を整合性トレーニングと整合させ、ネットワーク内の出口に対してマルチタスク学習方式で二重空間を協調的に最適化する。
論文 参考訳(メタデータ) (2021-09-27T17:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。