論文の概要: Effective Vision Transformer Training: A Data-Centric Perspective
- arxiv url: http://arxiv.org/abs/2209.15006v1
- Date: Thu, 29 Sep 2022 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:29:46.337873
- Title: Effective Vision Transformer Training: A Data-Centric Perspective
- Title(参考訳): 効果的な視覚トランスフォーマートレーニング:データ中心の視点
- Authors: Benjia Zhou and Pichao Wang and Jun Wan and Yanyan Liang and Fan Wang
- Abstract要約: 視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)と比較して有望な性能を示した
本稿では,DDP(Dynamic Data Proportion)やKAR(Knowledge Assimilation Rate)など,いくつかの指標を定義する。
トレーニングサンプルの難易度を動的に測定し,異なるトレーニング段階におけるモデルに対する効果的なサンプルを生成するための,新しいデータ中心型ViTトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.02488085447691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have shown promising performance compared with
Convolutional Neural Networks (CNNs), but the training of ViTs is much harder
than CNNs. In this paper, we define several metrics, including Dynamic Data
Proportion (DDP) and Knowledge Assimilation Rate (KAR), to investigate the
training process, and divide it into three periods accordingly: formation,
growth and exploration. In particular, at the last stage of training, we
observe that only a tiny portion of training examples is used to optimize the
model. Given the data-hungry nature of ViTs, we thus ask a simple but important
question: is it possible to provide abundant ``effective'' training examples at
EVERY stage of training? To address this issue, we need to address two critical
questions, \ie, how to measure the ``effectiveness'' of individual training
examples, and how to systematically generate enough number of ``effective''
examples when they are running out. To answer the first question, we find that
the ``difficulty'' of training samples can be adopted as an indicator to
measure the ``effectiveness'' of training samples. To cope with the second
question, we propose to dynamically adjust the ``difficulty'' distribution of
the training data in these evolution stages. To achieve these two purposes, we
propose a novel data-centric ViT training framework to dynamically measure the
``difficulty'' of training samples and generate ``effective'' samples for
models at different training stages. Furthermore, to further enlarge the number
of ``effective'' samples and alleviate the overfitting problem in the late
training stage of ViTs, we propose a patch-level erasing strategy dubbed
PatchErasing. Extensive experiments demonstrate the effectiveness of the
proposed data-centric ViT training framework and techniques.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して有望な性能を示しているが、ViTのトレーニングはCNNよりもはるかに難しい。
本稿では,ddp(dynamic data proportion)とkar(knowledge assimilation rate)を含むいくつかの指標を定義し,学習過程を調査し,形成,成長,探索の3つの周期に分類する。
特に、トレーニングの最終段階では、モデルの最適化にはトレーニング例のごく一部しか使われていないことを観察しています。
トレーニングのEVERY段階において、豊富な‘効果的な’トレーニング例を提供することは可能か?
この問題に対処するには,2つの重要な質問に対処する必要がある。‘ie’,個々のトレーニング例の‘エフェクトネス’の測定方法,そして,アウトアウト時に十分な数の‘エフェクト’例を体系的に生成する方法だ。
最初の質問に答えるために、トレーニングサンプルの ``difficulty'' をトレーニングサンプルの ``effectiveness'' を測定する指標として採用できることを見出した。
2つ目の問題に対処するため,我々は,これらの進化段階におけるトレーニングデータの‘差分’分布を動的に調整することを提案する。
この2つの目的を達成するために,トレーニングサンプルの ‘`difficulty'' を動的に計測し,異なるトレーニング段階のモデルに対して ‘effective'' サンプルを生成する,データ中心型vitトレーニングフレームワークを提案する。
さらに,「有効な」サンプルの数をさらに増やし,ViTの後期トレーニング段階における過適合問題を緩和するために,パッチレベルの消去戦略であるPatchErasingを提案する。
大規模な実験は、提案したデータ中心のViTトレーニングフレームワークとテクニックの有効性を示す。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Large Deviations for Accelerating Neural Networks Training [5.864710987890994]
LAD改良反復訓練(LIIT)は,大規模な逸脱原理を用いたANNのための新しい訓練手法である。
LIITアプローチでは、LAD異常スコアに基づくサンプリング戦略を用いて、MTS(Modified Training Sample)を生成し、反復的に更新する。
MTSサンプルは、各クラスにおける観察のほとんどを異常に含めることで、トレーニングデータをうまく表現するように設計されている。
論文 参考訳(メタデータ) (2023-03-02T04:14:05Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Understanding new tasks through the lens of training data via
exponential tilting [43.33775132139584]
対象タスクの分布を把握するために,トレーニングサンプルを再検討する問題を考察する。
指数的傾き仮定に基づいて分布シフトモデルを定式化し、列車データ重み付けを学習する。
学習したトレインデータの重み付けは、目標のパフォーマンス評価、微調整、モデル選択といった下流タスクに使用できる。
論文 参考訳(メタデータ) (2022-05-26T18:38:43Z) - STraTA: Self-Training with Task Augmentation for Better Few-shot
Learning [77.04780470527432]
タスク拡張による自己学習のためのSTraTAを提案する。
実験の結果,STraTAは12個のベンチマークでサンプル効率を大幅に向上できることがわかった。
分析の結果,タスク強化と自己学習は相補的かつ独立的に有効であることが判明した。
論文 参考訳(メタデータ) (2021-09-13T19:14:01Z) - Dynamic Curriculum Learning for Low-Resource Neural Machine Translation [27.993407441922507]
低リソースNMTにおけるトレーニングデータの有効利用について検討する。
特に、トレーニングのトレーニングサンプルを並べ替えるための動的カリキュラム学習(DCL)手法を提案する。
これにより、現在のモデルが学ぶのに十分な能力を持つような簡単なサンプルをハイライトすることで、トレーニングが簡単になります。
論文 参考訳(メタデータ) (2020-11-30T08:13:41Z) - Efficient Deep Representation Learning by Adaptive Latent Space Sampling [16.320898678521843]
監視されたディープラーニングには、アノテーションを備えた大量のトレーニングサンプルが必要です。
本稿では,学習プロセスに供給される情報サンプルを適応的に選択する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-19T22:17:02Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。