論文の概要: Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2604.12391v1
- Date: Tue, 14 Apr 2026 07:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.314426
- Title: Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models
- Title(参考訳): モデルのチェーン・オブ・モデル--ビジョン・ファンデーション・モデルのトレーニング・アクセラレーションを再考する
- Authors: Jiawei Fan, Shigeng Wang, Chao Li, Xiaolong Liu, Anbang Yao,
- Abstract要約: CoM-PT(Chain-of-Models Pre-Training)は、視覚基礎モデルの無作為なトレーニングアクセラレーション手法である。
CoM-PTは、モデルのファミリーレベルでトレーニングパイプラインを高速化し、モデルのファミリーが拡大するにつれて効率的にスケーリングするように設計されている。
ゼロショットタスクと微調整タスクにまたがる45のデータセットにわたって広く検証されている。
- 参考スコア(独自算出の注目度): 16.42169130504086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Chain-of-Models Pre-Training (CoM-PT), a novel performance-lossless training acceleration method for vision foundation models (VFMs). This approach fundamentally differs from existing acceleration methods in its core motivation: rather than optimizing each model individually, CoM-PT is designed to accelerate the training pipeline at the model family level, scaling efficiently as the model family expands. Specifically, CoM-PT establishes a pre-training sequence for the model family, arranged in ascending order of model size, called model chain. In this chain, only the smallest model undergoes standard individual pre-training, while the other models are efficiently trained through sequential inverse knowledge transfer from their smaller predecessors by jointly reusing the knowledge in the parameter space and the feature space. As a result, CoM-PT enables all models to achieve performance that is mostly superior to standard individual training while significantly reducing training cost, and this is extensively validated across 45 datasets spanning zero-shot and fine-tuning tasks. Notably, its efficient scaling property yields a remarkable phenomenon: training more models even results in higher efficiency. For instance, when pre-training on CC3M: i) given ViT-L as the largest model, progressively prepending smaller models to the model chain reduces computational complexity by up to 72%; ii) within a fixed model size range, as the VFM family scales across 3, 4, and 7 models, the acceleration ratio of CoM-PT exhibits a striking leap: from 4.13X to 5.68X and 7.09X. Since CoM-PT is naturally agnostic to specific pre-training paradigms, we open-source the code to spur further extensions in more computationally intensive scenarios, such as large language model pre-training.
- Abstract(参考訳): 本稿では,視覚基礎モデル(VFM)のための新しい性能ロスレストレーニングアクセラレーション手法であるChain-of-Models Pre-Training(CoM-PT)を提案する。
それぞれのモデルを個別に最適化するのではなく、CoM-PTはモデルのファミリーレベルでトレーニングパイプラインを加速し、モデルのファミリーが拡大するにつれて効率的にスケーリングするように設計されている。
特に、CoM-PTはモデルチェーンと呼ばれるモデルサイズを上昇順に並べたモデルファミリーの事前訓練シーケンスを確立する。
このチェーンでは、最小のモデルのみが標準の個別事前学習を行い、他のモデルはパラメータ空間と特徴空間の知識を共同で再利用することで、より小さなモデルからの逐次的逆知識伝達によって効率的に訓練される。
結果として、CoM-PTは、訓練コストを大幅に削減しながら、標準の個々のトレーニングよりもはるかに優れたパフォーマンスを、すべてのモデルで達成することが可能となり、ゼロショットタスクと微調整タスクにまたがる45のデータセットにわたって広範囲に検証される。
特に、その効率的なスケーリング特性は驚くべき現象をもたらします。より多くのモデルをトレーニングすることで、より高い効率が得られるのです。
例えば、CC3Mでの事前トレーニングの場合:
一 最大モデルとしてViT-Lを与えられた場合、より小さなモデルをモデルチェーンに徐々に前倒しすることにより、計算複雑性を最大72%減少させる。
ii) 固定モデルサイズ範囲内において、VFMファミリーは3,4,7モデルでスケールし、CoM-PTの加速比は4.13Xから5.68Xおよび7.09Xに急上昇する。
CoM-PTは、特定の事前学習パラダイムに依存しないため、大規模言語モデル事前学習など、より計算集約的なシナリオでさらなる拡張を促進するために、コードをオープンソース化する。
関連論文リスト
- Scaling Law Analysis in Federated Learning: How to Select the Optimal Model Size? [12.791994483385409]
高品質で精度の高いトレーニングデータの枯渇に対する懸念が高まっている。
Federated Learningにおけるトレーニングデータセットの分散化は、大規模なモデルをスケールする上での課題を導入している。
本稿では,従来のモデルスケーリング体験をフェデレートした学習シナリオに一般化するための洞察を提供する。
論文 参考訳(メタデータ) (2025-11-15T12:41:25Z) - GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - A Multi-Level Framework for Accelerating Training Transformer Models [5.268960238774481]
大規模ディープラーニングモデルの訓練は、コンピューティングパワーに対する前例のない需要をもたらしている。
本稿では,Coalescing, De-Coalescing, Interpolation に基づく,加速度のトレーニングのためのマルチレベルフレームワークを提案する。
提案手法は,BERT/GPT-Baseモデルのトレーニングにおいて約20%,BERT-Largeモデルのトレーニングにおいて最大51.6%のコスト削減を実現する。
論文 参考訳(メタデータ) (2024-04-07T03:04:34Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics [7.58472343957521]
トレーニングダイナミクスは,モデルサイズや事前学習手法間で非常に伝達可能であることを示す。
本稿では,TransFerring Training dynamics (FTFT)によるファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T12:53:48Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。