Fugu-MT 論文翻訳(概要): FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources

論文の概要: FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources

arxiv url: http://arxiv.org/abs/2407.01445v3
Date: Wed, 02 Oct 2024 17:34:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 04:04:44.675259
Title: FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources
Title（参考訳）: FastCLIP: 限られたリソースでCLIPトレーニングを加速するための最適化手法のスイート
Authors: Xiyuan Wei, Fanjiang Ye, Ori Yonay, Xingyu Chen, Baixi Sun, Dingwen Tao, Tianbao Yang,
Abstract要約: 我々は、高度な合成最適化技術に基づいて構築された一般的なCLIPトレーニングフレームワークであるFastCLIPを紹介する。我々のフレームワークは、通信オーバーヘッドを低減するための効率的な勾配低減戦略を備えている。我々は、FastCLIPと最先端のトレーニングベースラインのパフォーマンスを、異なる計算スケールでベンチマークする。
参考スコア（独自算出の注目度）: 45.40926501138365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing studies of training state-of-the-art Contrastive Language-Image Pretraining (CLIP) models on large-scale data involve hundreds of or even thousands of GPUs due to the requirement of a large batch size. However, such a large amount of resources is not accessible to most people. While advanced compositional optimization techniques for optimizing global contrastive losses have been demonstrated effective for removing the requirement of large batch size, their performance on large-scale data remains underexplored and not optimized. To bridge the gap, this paper explores several aspects of CLIP training with limited resources (e.g., up to tens of GPUs). First, we introduce FastCLIP, a general CLIP training framework built on advanced compositional optimization techniques while designed and optimized for the distributed setting. Our framework is equipped with an efficient gradient reduction strategy to reduce communication overhead. Second, to further boost training efficiency, we investigate three components of the framework from an optimization perspective: the schedule of the inner learning rate, the update rules of the temperature parameter and the model parameters, respectively. Experiments on different strategies for each component shed light on how to conduct CLIP training more efficiently. Finally, we benchmark the performance of FastCLIP and the state-of-the-art training baseline (OpenCLIP) on different compute scales up to 32 GPUs on 8 nodes, and three data scales ranging from 2.7 million, 9.1 million to 315 million image-text pairs to demonstrate the significant improvement of FastCLIP in the resource-limited setting. We release the code of FastCLIP at https://github.com/Optimization-AI/fast_clip .
Abstract（参考訳）: 大規模データに対する最先端のContrastive Language- Image Pretraining(CLIP)モデルのトレーニングに関する既存の研究では、大規模なバッチサイズを必要とするため、数百から数千のGPUが使用されている。しかし、このような大量の資源は、ほとんどの人にはアクセスできない。グローバルなコントラスト損失を最適化するための高度な合成最適化手法は,大規模なバッチサイズの要求を除去するために有効であることが証明されているが,大規模なデータに対するそれらの性能は未探索であり,最適化されていない。このギャップを埋めるために、本稿では、限られたリソース(例えば、最大10個のGPU)でCLIPトレーニングのいくつかの側面について検討する。最初にFastCLIPを紹介した。これは高度な合成最適化技術に基づく一般的なCLIPトレーニングフレームワークで、分散環境向けに設計および最適化されている。我々のフレームワークは、通信オーバーヘッドを低減するための効率的な勾配低減戦略を備えている。第2に、学習効率をさらに向上させるために、内部学習率のスケジュール、温度パラメータの更新規則、モデルパラメータの3つの要素を最適化の観点から検討する。それぞれのコンポーネントに対するさまざまな戦略の実験は、CLIPトレーニングをより効率的に行う方法について光を当てた。最後に、FastCLIPとOpenCLIP(State-of-the-art training baseline)のパフォーマンスを8ノード上の32GPUまで異なる計算スケールでベンチマークし、リソース制限設定におけるFastCLIPの大幅な改善を示すために、270万、9.100万、および31500万の画像テキストペアの3つのデータスケールをベンチマークした。我々は、FastCLIPのコードをhttps://github.com/Optimization-AI/fast_clipでリリースします。

関連論文リスト

AmorLIP: Efficient Language-Image Pretraining via Amortization [47.4350993430346]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文参考訳（メタデータ） (2025-05-25T05:30:37Z)
Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification [12.558701595138928]
対照的な言語-画像事前訓練は、画像分類において印象的なゼロショット性能を示した。最先端の手法は、しばしばCLIPのパフォーマンスを最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。単段階 LMM Augmented CLIP (SLAC) と2段階 LMM Augmented CLIP (TLAC) を導入した。私たちのモデルは、ImageNet、SUN397、Caltech101を含む11のベース・ツー・ノーベルデータセットのうち9つの精度で達成しました。
論文参考訳（メタデータ） (2025-03-15T17:11:41Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文参考訳（メタデータ） (2024-09-04T04:05:30Z)
ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。 OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文参考訳（メタデータ） (2024-06-12T02:57:41Z)
Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies [27.809995478990544]
本稿では,CLIP(Contrastive Language-Image Pre-Training)の性能を,限られた計算予算にスケールダウンする際の性能について検討する。高品質なデータのより小さなデータセットは、より低い品質のデータセットよりも優れていることを示す。 SLIP、FLIP、CLIP、CLIP+Data Augmentationという4つのCLIPトレーニング戦略を比較し、トレーニング戦略の選択が利用可能な計算リソースに依存することを示す。
論文参考訳（メタデータ） (2024-04-12T02:04:34Z)
Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。 PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文参考訳（メタデータ） (2022-10-03T16:13:14Z)
dPRO: A Generic Profiling and Optimization System for Expediting Distributed DNN Training [12.413533491501548]
本稿では,分散トレーニングシステムの性能ボトルネックを特定するツールとして,dPROを提案する。我々は,複数のディープラーニングフレームワーク(PyTorch,MXNet,AllReduce,Serverアーキテクチャ)と代表的通信方式にdPROを実装した。大規模な実験により、dPROは、ほとんどのケースで5%のエラーで様々な環境での分散トレーニングのパフォーマンスを予測し、ベースラインを最大87.1%上回る最適化戦略を見出した。
論文参考訳（メタデータ） (2022-05-05T07:15:25Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。 PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文参考訳（メタデータ） (2021-12-04T19:42:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。