論文の概要: Where Should I Spend My FLOPS? Efficiency Evaluations of Visual
Pre-training Methods
- arxiv url: http://arxiv.org/abs/2209.15589v2
- Date: Mon, 3 Oct 2022 17:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 10:52:10.575917
- Title: Where Should I Spend My FLOPS? Efficiency Evaluations of Visual
Pre-training Methods
- Title(参考訳): FLOPSはどこで配るべきか?
視覚前訓練法の効率評価
- Authors: Skanda Koppula, Yazhe Li, Evan Shelhamer, Andrew Jaegle, Nikhil
Parthasarathy, Relja Arandjelovic, Jo\~ao Carreira, Olivier H\'enaff
- Abstract要約: 固定されたFLOP予算が与えられた場合、代表的な視覚的タスクに対して高い正確性を得るために最適なデータセット、モデル、そして(自己監督的な)トレーニング方法は何ですか?
5つの大規模データセット(JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO)と6つの事前学習方法(CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised)を検討した。
本稿の結果は,自己管理手法が本質的に大規模で未処理なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。
- 参考スコア(独自算出の注目度): 29.141145775835106
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised methods have achieved remarkable success in transfer
learning, often achieving the same or better accuracy than supervised
pre-training. Most prior work has done so by increasing pre-training
computation by adding complex data augmentation, multiple views, or lengthy
training schedules. In this work, we investigate a related, but orthogonal
question: given a fixed FLOP budget, what are the best datasets, models, and
(self-)supervised training methods for obtaining high accuracy on
representative visual tasks? Given the availability of large datasets, this
setting is often more relevant for both academic and industry labs alike. We
examine five large-scale datasets (JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K,
and COCO) and six pre-training methods (CLIP, DINO, SimCLR, BYOL, Masked
Autoencoding, and supervised). In a like-for-like fashion, we characterize
their FLOP and CO$_2$ footprints, relative to their accuracy when transferred
to a canonical image segmentation task. Our analysis reveals strong disparities
in the computational efficiency of pre-training methods and their dependence on
dataset quality. In particular, our results call into question the
commonly-held assumption that self-supervised methods inherently scale to
large, uncurated data. We therefore advocate for (1) paying closer attention to
dataset curation and (2) reporting of accuracies in context of the total
computational cost.
- Abstract(参考訳): 自己教師あり手法は、教師付き事前学習と同等かそれ以上の精度をしばしば達成し、転校学習において顕著な成功を収めている。
以前のほとんどの作業では、複雑なデータ拡張や複数のビュー、あるいは長いトレーニングスケジュールを追加することで、事前トレーニング計算を増加させてきた。
本研究では, FLOP予算が固定された場合, 最適なデータセット, モデル, および(自己)教師付きトレーニング手法を用いて, 視覚的タスクの高精度化を図る。
大規模なデータセットが利用可能であることを考えると、この設定は学術と産業の両方のラボにとってより関係があることが多い。
5つの大規模データセット (JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO) と6つの事前学習手法 (CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised) について検討した。
類似の方法では、標準画像分割タスクに転送する際の正確さと比較して、フロップとco$_2$フットプリントを特徴付ける。
解析の結果,事前学習法の計算効率とデータセット品質への依存度に強い差が認められた。
特に,本研究の結果は,自己管理手法が本質的に大規模で未計算なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。
したがって,(1)データセットのキュレーションに細心の注意を払うこと,(2)総計算コストの観点からの精度の報告を提唱する。
関連論文リスト
- Bad Students Make Great Teachers: Active Learning Accelerates
Large-Scale Visual Understanding [9.655434542591815]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。