論文の概要: Scaling Laws for the Few-Shot Adaptation of Pre-trained Image
Classifiers
- arxiv url: http://arxiv.org/abs/2110.06990v1
- Date: Wed, 13 Oct 2021 19:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:29:53.602097
- Title: Scaling Laws for the Few-Shot Adaptation of Pre-trained Image
Classifiers
- Title(参考訳): 事前学習画像分類器のFew-Shot適応のためのスケーリング法則
- Authors: Gabriele Prato, Simon Guiroy, Ethan Caballero, Irina Rish, Sarath
Chandar
- Abstract要約: ニューラルネットワークのスケーリング法則の実証科学は、機械学習の未来にとって重要な領域として急速に成長している。
我々の主な目的は、事前学習データの量が標準画像分類器の少数ショット一般化性能にどのように影響するかを検討することである。
- 参考スコア(独自算出の注目度): 11.408339220607251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical science of neural scaling laws is a rapidly growing area of
significant importance to the future of machine learning, particularly in the
light of recent breakthroughs achieved by large-scale pre-trained models such
as GPT-3, CLIP and DALL-e. Accurately predicting the neural network performance
with increasing resources such as data, compute and model size provides a more
comprehensive evaluation of different approaches across multiple scales, as
opposed to traditional point-wise comparisons of fixed-size models on
fixed-size benchmarks, and, most importantly, allows for focus on the
best-scaling, and thus most promising in the future, approaches. In this work,
we consider a challenging problem of few-shot learning in image classification,
especially when the target data distribution in the few-shot phase is different
from the source, training, data distribution, in a sense that it includes new
image classes not encountered during training. Our current main goal is to
investigate how the amount of pre-training data affects the few-shot
generalization performance of standard image classifiers. Our key observations
are that (1) such performance improvements are well-approximated by power laws
(linear log-log plots) as the training set size increases, (2) this applies to
both cases of target data coming from either the same or from a different
domain (i.e., new classes) as the training data, and (3) few-shot performance
on new classes converges at a faster rate than the standard classification
performance on previously seen classes. Our findings shed new light on the
relationship between scale and generalization.
- Abstract(参考訳): ニューラルスケーリング法則の実証科学は、マシンラーニングの将来において、特にGPT-3、CLIP、DALL-eといった大規模事前学習モデルによって達成された最近のブレークスルーに照らして、急速に成長する領域である。
データ、計算、モデルサイズなどのリソースの増加に伴うニューラルネットワークのパフォーマンスの正確な予測は、固定サイズベンチマーク上の固定サイズモデルの従来のポイントワイド比較とは対照的に、複数のスケールにわたるさまざまなアプローチのより包括的な評価を提供する。
本研究では,画像分類において,特に目標データ分布とソース,トレーニング,データ分布とが異なる場合,訓練中に遭遇しない新たな画像クラスを含むという課題について考察する。
現在の主要な目標は、トレーニング済みデータの量が標準画像分類器の限定的一般化性能にどのように影響するかを調べることです。
このような性能改善は,(1)訓練セットのサイズが大きくなるにつれてパワー法則(線形ログログプロット)によって十分に近似され,(2)訓練データとして同一または異なるドメイン(すなわち新しいクラス)から来るターゲットデータの両方に適用される。
我々の発見は、スケールと一般化の関係に新しい光を当てた。
関連論文リスト
- Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Unified Neural Network Scaling Laws and Scale-time Equivalence [10.918504301310753]
本稿では、モデルサイズ、トレーニング時間、データボリュームの3つの要因がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。
まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。
次に、スケール時間同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
論文 参考訳(メタデータ) (2024-09-09T16:45:26Z) - Calibrating Higher-Order Statistics for Few-Shot Class-Incremental Learning with Pre-trained Vision Transformers [12.590571371294729]
FSCIL(Few-shot class-incremental Learning)は、学習済みのクラスを忘れずに、非常に少ないデータ(5つのサンプル)から新しいクラスにモデルを適応することを目的としている。
マルチショットCIL(MSCIL)の最近の研究は、事前訓練されたモデルを利用して、忘れを減らし、より優れた可塑性を実現する。
私たちは、大規模なデータセットで事前トレーニングされたViTモデルを数ショット設定で使用しています。
論文 参考訳(メタデータ) (2024-04-09T21:12:31Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph
Classification [10.806893809269074]
本稿では,ロバストな特徴抽出器と非バイアスな分類器を共同で学習するRAHNet(Retrieval Augmented Hybrid Network)を提案する。
特徴抽出学習の段階において,各クラスにおけるクラス内多様性を直接強化する関係グラフを探索するグラフ検索モジュールを開発する。
また、分類表現を得るために、カテゴリー中心の教師付きコントラスト損失を革新的に最適化する。
論文 参考訳(メタデータ) (2023-08-04T14:06:44Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Leveraging Angular Information Between Feature and Classifier for
Long-tailed Learning: A Prediction Reformulation Approach [90.77858044524544]
分類器の重みを再バランスすることなく、包含角度で認識確率を再構成する。
予測形式再構成の性能向上に着想を得て, この角度予測の異なる特性について検討する。
CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。
論文 参考訳(メタデータ) (2022-12-03T07:52:48Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Closing the Generalization Gap in One-Shot Object Detection [92.82028853413516]
強力な数ショット検出モデルの鍵は、高度なメトリック学習アプローチではなく、カテゴリの数をスケールすることにある。
将来的なデータアノテーションの取り組みは、より広範なデータセットに集中し、より多くのカテゴリにアノテートする必要がある。
論文 参考訳(メタデータ) (2020-11-09T09:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。