Fugu-MT 論文翻訳(概要): Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

論文の概要: Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

arxiv url: http://arxiv.org/abs/2602.21081v1
Date: Tue, 24 Feb 2026 16:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.846046
Title: Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads
Title（参考訳）: ビジョントランスのスケーリング - イメージ中心のワークロードに対するDeepSpeedの評価
Authors: Huy Trinh, Rebecca Ma, Zeqi Yu, Tahsin Reza,
Abstract要約: ビジョントランスフォーマー(ViT)は、データ内のグローバルな関係をキャプチャする自己認識機構を利用することで、画像処理タスクにおいて顕著なポテンシャルを示した。本研究では,高効率な分散トレーニングフレームワークであるDeepSpeedを活用し,ViTのスケーラビリティと性能を向上させることを目的とする。
参考スコア（独自算出の注目度）: 0.1679937788852768
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Vision Transformers (ViTs) have demonstrated remarkable potential in image processing tasks by utilizing self-attention mechanisms to capture global relationships within data. However, their scalability is hindered by significant computational and memory demands, especially for large-scale models with many parameters. This study aims to leverage DeepSpeed, a highly efficient distributed training framework that is commonly used for language models, to enhance the scalability and performance of ViTs. We evaluate intra- and inter-node training efficiency across multiple GPU configurations on various datasets like CIFAR-10 and CIFAR-100, exploring the impact of distributed data parallelism on training speed, communication overhead, and overall scalability (strong and weak scaling). By systematically varying software parameters, such as batch size and gradient accumulation, we identify key factors influencing performance of distributed training. The experiments in this study provide a foundational basis for applying DeepSpeed to image-related tasks. Future work will extend these investigations to deepen our understanding of DeepSpeed's limitations and explore strategies for optimizing distributed training pipelines for Vision Transformers.
Abstract（参考訳）: ビジョントランスフォーマー(ViT)は、データ内のグローバルな関係をキャプチャする自己認識機構を利用することで、画像処理タスクにおいて顕著なポテンシャルを示した。しかし、そのスケーラビリティは、特に多くのパラメータを持つ大規模モデルにおいて、大きな計算とメモリ要求によって妨げられている。本研究の目的は、言語モデルで一般的に使用される高効率分散トレーニングフレームワークであるDeepSpeedを活用し、ViTのスケーラビリティと性能を向上させることである。 CIFAR-10やCIFAR-100といったさまざまなデータセット上で、ノード内およびノード間トレーニングの効率を評価し、トレーニング速度、通信オーバーヘッド、全体的なスケーラビリティ(強度と拡張性)に対する分散データ並列性の影響を調査した。バッチサイズや勾配蓄積などのソフトウェアパラメータを体系的に変化させることで、分散トレーニングの性能に影響を与える重要な要因を特定する。本研究では,DeepSpeedを画像関連タスクに適用するための基礎となる基礎となる実験を行った。今後の研究は、これらの調査を拡張して、DeepSpeedの制限の理解を深め、Vision Transformersの分散トレーニングパイプラインを最適化するための戦略を模索する予定である。

関連論文リスト

Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文参考訳（メタデータ） (2025-09-12T16:05:07Z)
Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文参考訳（メタデータ） (2025-08-05T08:03:12Z)
Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文参考訳（メタデータ） (2025-06-17T22:29:37Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文参考訳（メタデータ） (2024-08-12T07:03:35Z)
OnDev-LCT: On-Device Lightweight Convolutional Transformers towards federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文参考訳（メタデータ） (2024-01-22T02:17:36Z)
ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。 ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文参考訳（メタデータ） (2023-10-30T16:55:50Z)
Controllable Data Augmentation Through Deep Relighting [75.96144853354362]
我々は、既存のモデルが照度変化に不変である能力を改善するために、リライトを通じて様々な画像データセットを拡大する方法を探る。我々は,エンコーダ・デコーダネットワークをベースとして,様々な入力シーンの照明の様々なバリエーションを迅速に生成できるツールを開発した。パイプラインで拡張されたデータセットのモデルをトレーニングすることで、ローカライゼーションベンチマークでより高いパフォーマンスを実現することが可能であることを実証した。
論文参考訳（メタデータ） (2021-10-26T20:02:51Z)
Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。 AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文参考訳（メタデータ） (2020-04-28T21:56:10Z)
Understanding the Effects of Data Parallelism and Sparsity on Neural Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文参考訳（メタデータ） (2020-03-25T10:49:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。