論文の概要: Sequence Length Scaling in Vision Transformers for Scientific Images on Frontier
- arxiv url: http://arxiv.org/abs/2405.15780v1
- Date: Wed, 17 Apr 2024 19:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:29:41.472212
- Title: Sequence Length Scaling in Vision Transformers for Scientific Images on Frontier
- Title(参考訳): フロンティアの科学画像のための視覚変換器のシーケンス長スケーリング
- Authors: Aristeidis Tsaris, Chengming Zhang, Xiao Wang, Junqi Yin, Siyan Liu, Moetasim Ashfaq, Ming Fan, Jong Youl Choi, Mohamed Wahib, Dan Lu, Prasanna Balaprakash, Feiyi Wang,
- Abstract要約: ビジョントランスフォーマー (ViT) は、地球科学の応用を含む科学画像の基礎モデルにおいて重要な要素である。
最大100万個のトークンを処理できる分散シーケンス並列処理を開発した。
我々のアプローチは、DeepSpeed-UlyssesとLong Sequence-Segmentationをモデルシャーディングで活用し、ViTトレーニングにシーケンス並列性を適用した最初の方法である。
- 参考スコア(独自算出の注目度): 10.844784589626231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) are pivotal for foundational models in scientific imagery, including Earth science applications, due to their capability to process large sequence lengths. While transformers for text has inspired scaling sequence lengths in ViTs, yet adapting these for ViTs introduces unique challenges. We develop distributed sequence parallelism for ViTs, enabling them to handle up to 1M tokens. Our approach, leveraging DeepSpeed-Ulysses and Long-Sequence-Segmentation with model sharding, is the first to apply sequence parallelism in ViT training, achieving a 94% batch scaling efficiency on 2,048 AMD-MI250X GPUs. Evaluating sequence parallelism in ViTs, particularly in models up to 10B parameters, highlighted substantial bottlenecks. We countered these with hybrid sequence, pipeline, tensor parallelism, and flash attention strategies, to scale beyond single GPU memory limits. Our method significantly enhances climate modeling accuracy by 20% in temperature predictions, marking the first training of a transformer model on a full-attention matrix over 188K sequence length.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、地球科学の応用を含む科学画像の基本モデルにおいて、大きなシーケンス長を処理する能力のために重要な要素である。
テキストのトランスフォーマーは、ViTのシーケンス長のスケーリングにインスピレーションを与えたが、ViTにこれらを適用することは、ユニークな課題をもたらす。
最大100万個のトークンを処理できる分散シーケンス並列処理を開発した。
我々のアプローチは、DeepSpeed-UlyssesとLong Sequence-Segmentationをモデルシャーディングで活用し、2,048 AMD-MI250X GPU上で94%のバッチスケーリング効率を達成し、ViTトレーニングにシーケンス並列性を適用した最初の方法である。
ViTにおけるシーケンス並列性の評価、特に10Bパラメータのモデルでは、重大なボトルネックが強調された。
それらを、ハイブリッドシーケンス、パイプライン、テンソル並列性、フラッシュアテンション戦略で対抗し、単一のGPUメモリ制限を超えてスケールしました。
本手法は, 温度予測の精度を20%向上させ, フルアテンション行列上の変圧器モデルの最初のトレーニングを188Kのシーケンス長で行った。
関連論文リスト
- Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。
既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。
本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文 参考訳(メタデータ) (2023-11-04T11:38:53Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - ViR:the Vision Reservoir [10.881974985012839]
Vision Reservoir Computing (ViR) は視覚変換器 (ViT) と平行して画像分類を行う。
各画像を一定長さのトークン列に分割することで、ViRは、ほぼ完全に接続された位相を持つ純粋な貯水池を構築し、ViTのTransformerモジュールを置き換える。
ViRのパラメータの数はViTの約15%または5%であり、メモリフットプリントはViTの約20%から40%である。
論文 参考訳(メタデータ) (2021-12-27T07:07:50Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition [66.47000813920617]
エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。
提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。
このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
論文 参考訳(メタデータ) (2020-05-16T08:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。