論文の概要: Distributed Cross-Channel Hierarchical Aggregation for Foundation Models
- arxiv url: http://arxiv.org/abs/2506.21411v1
- Date: Thu, 26 Jun 2025 15:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.176428
- Title: Distributed Cross-Channel Hierarchical Aggregation for Foundation Models
- Title(参考訳): ファンデーションモデルのための分散チャネル階層的集約
- Authors: Aristeidis Tsaris, Isaac Lyngaas, John Lagregren, Mohamed Wahib, Larry York, Prasanna Balaprakash, Dan Lu, Feiyi Wang, Xiao Wang,
- Abstract要約: 画像モダリティにまたがる多数のチャネルを持つデータセットに対して階層的クロスチャネルアグリゲーション(D-CHAG)アプローチを導入する。
提案手法は,任意のモデル並列戦略やトランスフォーマーアーキテクチャと互換性があり,計算効率を著しく向上させる。
テンソルシャーディングと統合すると,フロンティアスーパーコンピュータ上では,最大75%のメモリ使用量の削減,最大1,024AMDでの2倍以上のスループットを実現した。
- 参考スコア(独自算出の注目度): 8.360214641005673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based scientific foundation models hold significant promise for advancing scientific discovery and innovation. This potential stems from their ability to aggregate images from diverse sources such as varying physical groundings or data acquisition systems and to learn spatio-temporal correlations using transformer architectures. However, tokenizing and aggregating images can be compute-intensive, a challenge not fully addressed by current distributed methods. In this work, we introduce the Distributed Cross-Channel Hierarchical Aggregation (D-CHAG) approach designed for datasets with a large number of channels across image modalities. Our method is compatible with any model-parallel strategy and any type of vision transformer architecture, significantly improving computational efficiency. We evaluated D-CHAG on hyperspectral imaging and weather forecasting tasks. When integrated with tensor parallelism and model sharding, our approach achieved up to a 75% reduction in memory usage and more than doubled sustained throughput on up to 1,024 AMD GPUs on the Frontier Supercomputer.
- Abstract(参考訳): ビジョンに基づく科学基盤モデルは、科学的発見と革新を促進するための重要な約束を持っている。
このポテンシャルは、様々な物理的基盤やデータ取得システムなどの様々なソースからの画像を集約し、トランスフォーマーアーキテクチャを用いて時空間相関を学習する能力に起因している。
しかし、画像のトークン化と集約は計算集約的であり、現在の分散手法では十分に対処できない課題である。
本研究では,画像モダリティにまたがる多数のチャネルを持つデータセットを対象とした分散チャネル階層集約(D-CHAG)手法を提案する。
本手法は,任意のモデル並列戦略や視覚変換器アーキテクチャと互換性があり,計算効率を著しく向上させる。
ハイパースペクトル画像と天気予報タスクにおけるD-CHAGの評価を行った。
テンソル並列処理とモデルシャーディングを統合した場合,フロンティアスーパーコンピュータ上では最大で最大75%のメモリ使用量の削減,最大1,024AMDGPUでの2倍以上のスループットを実現した。
関連論文リスト
- DIFF-MF: A Difference-Driven Channel-Spatial State Space Model for Multi-Modal Image Fusion [51.07069814578009]
マルチモーダル画像融合は、複数のソース画像から補完的な情報を統合して、リッチなコンテンツで高品質な融合画像を生成することを目的としている。
マルチモーダル画像融合のための差動駆動型チャネル空間空間モデルDIFF-MFを提案する。
本手法は,視覚的品質と定量的評価の両方において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2026-01-09T05:26:54Z) - Vision-Enhanced Large Language Models for High-Resolution Image Synthesis and Multimodal Data Interpretation [0.0]
本研究では,視覚拡張大言語モデル(LLM)と高度なトランスフォーマベースアーキテクチャを統合するための変換フレームワークを提案する。
提案モデルでは, ノイズとデータを線形経路に接続し, 効率的かつ高品質な生成を可能にする整流機構を組み込んだ。
このフレームワークは、合成画像とコヒーレントなマルチモーダル表現において、非平行な忠実性を達成する。
論文 参考訳(メタデータ) (2025-12-14T08:28:50Z) - Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation [50.21021246855702]
本稿では,計算複雑性(FLOP)に基づく拡散モデルに対するGPUエネルギー消費予測のためのKaplanスケーリング法の適用法を提案する。
提案手法は, テキストエンコーディング, 反復的復号化, 復号化コンポーネントへの拡散モデル推論を分解し, 複数の推論ステップをまたいだ繰り返し実行により, 演算の復号化がエネルギー消費を支配しているという仮説を導いた。
この結果は拡散予測の計算バウンドの性質を検証し、持続可能なAIデプロイメント計画と炭素フットプリント推定の基礎を提供する。
論文 参考訳(メタデータ) (2025-11-21T08:12:47Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Hypergraph Mamba for Efficient Whole Slide Image Understanding [10.285000840656808]
ホイルスライド画像 (WSI) は, 超高解像度, 大規模, 複雑な空間関係のため, 医用画像解析において重要な課題となっている。
本稿では,ハイパーグラフニューラルネットワーク(HGNN)の高次リレーショナルモデリング機能と状態空間モデルの線形時間逐次モデリング効率を一体化する新しいフレームワークであるWSI-HGMambaを紹介する。
論文 参考訳(メタデータ) (2025-05-23T04:33:54Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - A Decade of Deep Learning for Remote Sensing Spatiotemporal Fusion: Advances, Challenges, and Opportunities [2.2311172523629637]
本稿では,過去10年間のリモートセンシングSTFにおけるディープラーニングの進歩に関する包括的調査について紹介する。
我々は,CNN,トランスフォーマー,GAN(Generative Adrial Networks),拡散モデル,シーケンスモデルなど,ディープラーニングアーキテクチャの分類を確立した。
時間空間の衝突、データセット間の一般化、大規模処理の計算効率、マルチソース異種融合、ベンチマークの多様性の不足といった5つの重要な課題を特定した。
論文 参考訳(メタデータ) (2025-04-01T15:30:48Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - HeteroTune: Efficient Federated Learning for Large Heterogeneous Models [35.53420882449293]
HeteroTuneは,限られた通信と予算の下で動作する大規模異種モデルのための,新しいファインチューニングパラダイムである。
我々の手法のコアは、異種モデルの柔軟かつ効率的な集約を可能にする新しいアーキテクチャであるDeMAにある。
We provide the theory analysis and empirical evidence shows that HeteroTune achieves state-of-the-art performance and efficiency across various task and model architectures。
論文 参考訳(メタデータ) (2024-11-25T09:58:51Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Towards Model-Agnostic Dataset Condensation by Heterogeneous Models [13.170099297210372]
我々は,クロスモデル相互作用により,普遍的に適用可能なコンデンサ画像を生成する新しい手法を開発した。
モデルのコントリビューションのバランスとセマンティックな意味の密接な維持により,本手法は,モデル固有凝縮画像に関連する制約を克服する。
論文 参考訳(メタデータ) (2024-09-22T17:13:07Z) - HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [51.89707241449435]
本稿では,高分解能表現CNNにマルチヘッド自己認識を効率よく組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。