論文の概要: POA: Pre-training Once for Models of All Sizes
- arxiv url: http://arxiv.org/abs/2408.01031v1
- Date: Fri, 2 Aug 2024 06:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:26:49.208626
- Title: POA: Pre-training Once for Models of All Sizes
- Title(参考訳): POA: すべてのサイズのモデルの事前トレーニング
- Authors: Yingying Zhang, Xin Guo, Jiangwei Lao, Lei Yu, Lixiang Ru, Jian Wang, Guo Ye, Huimei He, Jingdong Chen, Ming Yang,
- Abstract要約: 我々はPOA(Pre-Treating Once for All)と呼ばれる新しい三枝型自己教師型トレーニングフレームワークを提案する。
我々のアプローチは、革新的な弾性的な学生分岐を近代的な自己蒸留パラダイムに導入する。
ViT、Swin Transformer、ResNetのバックボーンを使って最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 33.72644336390202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale self-supervised pre-training has paved the way for one foundation model to handle many different vision tasks. Most pre-training methodologies train a single model of a certain size at one time. Nevertheless, various computation or storage constraints in real-world scenarios require substantial efforts to develop a series of models with different sizes to deploy. Thus, in this study, we propose a novel tri-branch self-supervised training framework, termed as POA (Pre-training Once for All), to tackle this aforementioned issue. Our approach introduces an innovative elastic student branch into a modern self-distillation paradigm. At each pre-training step, we randomly sample a sub-network from the original student to form the elastic student and train all branches in a self-distilling fashion. Once pre-trained, POA allows the extraction of pre-trained models of diverse sizes for downstream tasks. Remarkably, the elastic student facilitates the simultaneous pre-training of multiple models with different sizes, which also acts as an additional ensemble of models of various sizes to enhance representation learning. Extensive experiments, including k-nearest neighbors, linear probing evaluation and assessments on multiple downstream tasks demonstrate the effectiveness and advantages of our POA. It achieves state-of-the-art performance using ViT, Swin Transformer and ResNet backbones, producing around a hundred models with different sizes through a single pre-training session. The code is available at: https://github.com/Qichuzyy/POA.
- Abstract(参考訳): 大規模自己監督型事前学習は、ひとつの基盤モデルが多くの異なるビジョンタスクを処理するための道を開いた。
ほとんどの事前学習手法は、あるサイズの1つのモデルを一度に訓練する。
それでも、実際のシナリオにおける様々な計算やストレージの制約は、デプロイするサイズが異なる一連のモデルを開発するためにかなりの努力を必要とする。
そこで本研究では,この課題に対処するために,POA(Pre-Treating Once for All)と呼ばれる新しい三枝学習フレームワークを提案する。
我々のアプローチは、革新的な弾性的な学生分岐を近代的な自己蒸留パラダイムに導入する。
事前学習の各段階において、元の学生からランダムにサブネットワークをサンプリングし、弾性的な学生を形成し、全ての枝を自己蒸留的に訓練する。
一度トレーニング済みになると、POAは下流タスクのためのさまざまなサイズの事前トレーニングされたモデルの抽出を可能にする。
注目すべきは、弾力性のある学生は、異なる大きさの複数のモデルの同時事前訓練を促進することであり、また、表現学習を強化するために、様々なサイズのモデルの追加のアンサンブルとして機能する。
複数の下流タスクに対する線形探索評価と評価を含む大規模な実験は、我々のPOAの有効性と利点を実証している。
ViT、Swin Transformer、ResNetのバックボーンを使用して最先端のパフォーマンスを実現し、単一の事前トレーニングセッションを通じて、100ほどのモデルを生成する。
コードは、https://github.com/Qichuzyy/POA.comで入手できる。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models [40.21274215353816]
本稿では,大規模な学習モデルから学習遺伝子と呼ばれる1つのコンパクトな部分を学習するLearngeneフレームワークを紹介する。
次に、対応するステージ情報を含むこれらの学習遺伝子層を拡張して、可変深さのモデルを初期化する。
ImageNet-1Kの実験では、SWSはスクラッチからトレーニングされた多くのモデルと比較して一貫したパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-04-25T06:04:34Z) - Subnetwork-to-go: Elastic Neural Network with Dynamic Training and
Customizable Inference [16.564868336748503]
本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。
音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-12-06T12:40:06Z) - Multiple Physics Pretraining for Physical Surrogate Models [42.19323262199993]
物理代理モデルのための自己回帰型タスク非依存型事前学習手法である多重物理事前学習(MPP)を導入する。
我々は,幅広い流体力学のベンチマークを用いて,事前学習と下流作業に対するアプローチの有効性を検証した。
下流タスクでは、MPPを訓練したモデルを微調整することで、新しい物理の複数の時間ステップでより正確な予測が可能になることを実証する。
論文 参考訳(メタデータ) (2023-10-04T17:29:19Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。