論文の概要: Distributed Cross-Channel Hierarchical Aggregation for Foundation Models
- arxiv url: http://arxiv.org/abs/2506.21411v1
- Date: Thu, 26 Jun 2025 15:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.176428
- Title: Distributed Cross-Channel Hierarchical Aggregation for Foundation Models
- Title(参考訳): ファンデーションモデルのための分散チャネル階層的集約
- Authors: Aristeidis Tsaris, Isaac Lyngaas, John Lagregren, Mohamed Wahib, Larry York, Prasanna Balaprakash, Dan Lu, Feiyi Wang, Xiao Wang,
- Abstract要約: 画像モダリティにまたがる多数のチャネルを持つデータセットに対して階層的クロスチャネルアグリゲーション(D-CHAG)アプローチを導入する。
提案手法は,任意のモデル並列戦略やトランスフォーマーアーキテクチャと互換性があり,計算効率を著しく向上させる。
テンソルシャーディングと統合すると,フロンティアスーパーコンピュータ上では,最大75%のメモリ使用量の削減,最大1,024AMDでの2倍以上のスループットを実現した。
- 参考スコア(独自算出の注目度): 8.360214641005673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based scientific foundation models hold significant promise for advancing scientific discovery and innovation. This potential stems from their ability to aggregate images from diverse sources such as varying physical groundings or data acquisition systems and to learn spatio-temporal correlations using transformer architectures. However, tokenizing and aggregating images can be compute-intensive, a challenge not fully addressed by current distributed methods. In this work, we introduce the Distributed Cross-Channel Hierarchical Aggregation (D-CHAG) approach designed for datasets with a large number of channels across image modalities. Our method is compatible with any model-parallel strategy and any type of vision transformer architecture, significantly improving computational efficiency. We evaluated D-CHAG on hyperspectral imaging and weather forecasting tasks. When integrated with tensor parallelism and model sharding, our approach achieved up to a 75% reduction in memory usage and more than doubled sustained throughput on up to 1,024 AMD GPUs on the Frontier Supercomputer.
- Abstract(参考訳): ビジョンに基づく科学基盤モデルは、科学的発見と革新を促進するための重要な約束を持っている。
このポテンシャルは、様々な物理的基盤やデータ取得システムなどの様々なソースからの画像を集約し、トランスフォーマーアーキテクチャを用いて時空間相関を学習する能力に起因している。
しかし、画像のトークン化と集約は計算集約的であり、現在の分散手法では十分に対処できない課題である。
本研究では,画像モダリティにまたがる多数のチャネルを持つデータセットを対象とした分散チャネル階層集約(D-CHAG)手法を提案する。
本手法は,任意のモデル並列戦略や視覚変換器アーキテクチャと互換性があり,計算効率を著しく向上させる。
ハイパースペクトル画像と天気予報タスクにおけるD-CHAGの評価を行った。
テンソル並列処理とモデルシャーディングを統合した場合,フロンティアスーパーコンピュータ上では最大で最大75%のメモリ使用量の削減,最大1,024AMDGPUでの2倍以上のスループットを実現した。
関連論文リスト
- Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Towards Model-Agnostic Dataset Condensation by Heterogeneous Models [13.170099297210372]
我々は,クロスモデル相互作用により,普遍的に適用可能なコンデンサ画像を生成する新しい手法を開発した。
モデルのコントリビューションのバランスとセマンティックな意味の密接な維持により,本手法は,モデル固有凝縮画像に関連する制約を克服する。
論文 参考訳(メタデータ) (2024-09-22T17:13:07Z) - HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。