論文の概要: Improving the Generalization of Supervised Models
- arxiv url: http://arxiv.org/abs/2206.15369v1
- Date: Thu, 30 Jun 2022 15:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:31:03.573762
- Title: Improving the Generalization of Supervised Models
- Title(参考訳): 教師付きモデルの一般化の改善
- Authors: Mert Bulent Sariyildiz, Yannis Kalantidis, Karteek Alahari, Diane
Larlus
- Abstract要約: 本稿では,両世界の長所を生かした教師あり学習環境を提案する。
これらの3つの改善により、IN1Kトレーニングタスクと13のトランスファータスクとのトレードオフがより有利になることを示す。
- 参考スコア(独自算出の注目度): 30.264601433216246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of training a deep neural network on a given
classification task, e.g., ImageNet-1K (IN1K), so that it excels at that task
as well as at other (future) transfer tasks. These two seemingly contradictory
properties impose a trade-off between improving the model's generalization
while maintaining its performance on the original task. Models trained with
self-supervised learning (SSL) tend to generalize better than their supervised
counterparts for transfer learning; yet, they still lag behind supervised
models on IN1K. In this paper, we propose a supervised learning setup that
leverages the best of both worlds. We enrich the common supervised training
framework using two key components of recent SSL models: multi-scale crops for
data augmentation and the use of an expendable projector head. We replace the
last layer of class weights with class prototypes computed on the fly using a
memory bank. We show that these three improvements lead to a more favorable
trade-off between the IN1K training task and 13 transfer tasks. Over all the
explored configurations, we single out two models: t-ReX that achieves a new
state of the art for transfer learning and outperforms top methods such as DINO
and PAWS on IN1K, and t-ReX* that matches the highly optimized RSB-A1 model on
IN1K while performing better on transfer tasks. Project page and pretrained
models: https://europe.naverlabs.com/t-rex
- Abstract(参考訳): 我々は、与えられた分類タスク(例えば、ImageNet-1K (IN1K))でディープニューラルネットワークをトレーニングする問題を考える。
これら2つの相反する性質は、元のタスクのパフォーマンスを維持しながらモデルの一般化を改善するためのトレードオフを課す。
自己教師付き学習(SSL)で訓練されたモデルは、転送学習において教師付き学習よりも一般化する傾向にある。
本稿では,両世界の最善を活かした教師付き学習環境を提案する。
最近のSSLモデルの2つの重要なコンポーネントであるデータ拡張のためのマルチスケール作物と、拡張可能なプロジェクタヘッドの使用という、一般的な教師付きトレーニングフレームワークを充実させています。
クラス重みの最後の層を,メモリバンクを用いてオンザフライで計算したクラスプロトタイプに置き換える。
これら3つの改善により、in1kトレーニングタスクと13の転送タスクのトレードオフがより良好になることを示す。
In1KでDINOやPAWSといったトップメソッドを上回り、トランスファータスクで優れたパフォーマンスを発揮するt-ReXと、IN1Kで高度に最適化されたRSB-A1モデルにマッチするt-ReX*だ。
プロジェクトページと事前学習モデル: https://europe.naverlabs.com/t-rex
関連論文リスト
- Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Can Wikipedia Help Offline Reinforcement Learning? [12.12541097531412]
大規模なオフザシェルフデータセットが不足しているため、微調整強化学習モデルは難しい。
最近の研究では、Transformerアーキテクチャの導入により、オフラインのRLに対処し、その結果を改善している。
オフラインRLタスクを微調整した場合、他の領域(ビジョン、言語)における事前訓練されたシーケンスモデルの転送可能性について検討する。
論文 参考訳(メタデータ) (2022-01-28T13:55:35Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z) - Adversarial Training of Variational Auto-encoders for Continual
Zero-shot Learning [1.90365714903665]
本稿では,全タスクの情報を保持する共有VAEモジュールとタスク固有のプライベートVAEモジュールで構成されるハイブリッドネットワークを提案する。
モデルのサイズは各タスクで増加し、タスク固有のスキルの破滅的な忘れを防止する。
ZSL (Zero-Shot Learning) と GZSL (Generalized Zero-Shot Learning) による逐次学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-07T11:21:24Z) - Do Adversarially Robust ImageNet Models Transfer Better? [102.09335596483695]
逆向きに堅牢なモデルは、トランスファーラーニングに使用する場合、標準訓練されたモデルよりもよく機能する。
私たちの結果は、ロバストさが機能表現の改善につながるという最近の仮説と一致しています。
論文 参考訳(メタデータ) (2020-07-16T17:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。