論文の概要: Bad Students Make Great Teachers:Active Learning Accelerates Large-Scale
Visual Understanding
- arxiv url: http://arxiv.org/abs/2312.05328v1
- Date: Fri, 8 Dec 2023 19:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:32:59.860098
- Title: Bad Students Make Great Teachers:Active Learning Accelerates Large-Scale
Visual Understanding
- Title(参考訳): 悪い生徒は素晴らしい教師を作る:アクティブラーニングは大規模視覚理解を加速する
- Authors: Talfan Evans, Shreya Pathak, Hamza Merzic, Jonathan Schwarz, Ryutaro
Tanno, Olivier J. Henaff
- Abstract要約: モデルに基づくデータ選択は、一様サンプリングで訓練されたモデルの性能に到達するのに必要な総計算量を削減できることを示す。
これらのデータ選択ポリシーはデータセットやタスクをまたいで強く一般化し、データのスコアリングのオーバーヘッドをさらに減らすための道を開く。
- 参考スコア(独自算出の注目度): 9.655434542591815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method for accelerating large-scale pre-training with online
data selection policies. For the first time, we demonstrate that model-based
data selection can reduce the total computation needed to reach the performance
of models trained with uniform sampling. The key insight which enables this
"compute-positive" regime is that small models provide good proxies for the
loss of much larger models, such that computation spent on scoring data can be
drastically scaled down without diminishing the efficiency gains afforded to
the learner. These data selection policies also strongly generalize across
datasets and tasks, opening an avenue for further amortizing the overhead of
data scoring by re-using off-the-shelf models and training sequences. Our
methods, ClassAct and ActiveCLIP, require 46% and 51% fewer training updates
and up to 25% less total computation when training visual classifiers on JFT
and multimodal models on ALIGN, respectively. Finally, our paradigm seamlessly
applies to the curation of large-scale image-text datasets, yielding a new
state-of-the-art in several multimodal transfer tasks and pre-training regimes.
- Abstract(参考訳): オンラインデータ選択ポリシーを用いた大規模事前学習の高速化手法を提案する。
モデルに基づくデータ選択は、一様サンプリングで訓練されたモデルの性能に到達するのに必要な計算量を削減できることを示す。
この“計算肯定的”なやり方を可能にする重要な洞察は、小さなモデルがより大きなモデルの損失に対して優れたプロキシを提供し、スコアリングに費やされる計算を学習者に与えられる効率向上を損なうことなく劇的に縮小できる、ということである。
これらのデータ選択ポリシーは、データセットやタスクをまたいで強く一般化し、オフザシェルフモデルとトレーニングシーケンスを再利用することによって、データのスコアリングのオーバーヘッドをさらに減らすための道を開く。
JFTの視覚分類器とALIGNのマルチモーダルモデルの視覚分類器の学習には,46%,51%のトレーニング更新が必要であり,最大25%の総計算量が必要であった。
最後に、我々のパラダイムは、大規模な画像テキストデータセットのキュレーションにシームレスに適用し、複数のマルチモーダル転送タスクと事前トレーニングレジームにおいて、新たな最先端技術を生み出します。
関連論文リスト
- Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。