論文の概要: No One Representation to Rule Them All: Overlapping Features of Training
Methods
- arxiv url: http://arxiv.org/abs/2110.12899v2
- Date: Tue, 26 Oct 2021 17:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 09:10:50.599673
- Title: No One Representation to Rule Them All: Overlapping Features of Training
Methods
- Title(参考訳): ルールを全て規定する人はいない:訓練方法の重複する特徴
- Authors: Raphael Gontijo-Lopes, Yann Dauphin, Ekin D. Cubuk
- Abstract要約: ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。
近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。
これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
- 参考スコア(独自算出の注目度): 12.58238785151714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being able to capture a range of features of the data, high accuracy
models trained with supervision tend to make similar predictions. This
seemingly implies that high-performing models share similar biases regardless
of training methodology, which would limit ensembling benefits and render
low-accuracy models as having little practical use. Against this backdrop,
recent work has made very different training techniques, such as large-scale
contrastive learning, yield competitively-high accuracy on generalization and
robustness benchmarks. This motivates us to revisit the assumption that models
necessarily learn similar functions. We conduct a large-scale empirical study
of models across hyper-parameters, architectures, frameworks, and datasets. We
find that model pairs that diverge more in training methodology display
categorically different generalization behavior, producing increasingly
uncorrelated errors. We show these models specialize in subdomains of the data,
leading to higher ensemble performance: with just 2 models (each with ImageNet
accuracy ~76.5%), we can create ensembles with 83.4% (+7% boost). Surprisingly,
we find that even significantly low-accuracy models can be used to improve
high-accuracy models. Finally, we show diverging training methodology yield
representations that capture overlapping (but not supersetting) feature sets
which, when combined, lead to increased downstream performance.
- Abstract(参考訳): データの様々な特徴を捉えることができるにもかかわらず、監督の下で訓練された高精度なモデルは、同様の予測を行う傾向がある。
これは、高いパフォーマンスモデルがトレーニング方法論にかかわらず同様のバイアスを共有していることを示唆しているように思われる。
この背景に対して、最近の研究では、大規模なコントラスト学習のような非常に異なるトレーニングテクニックが、一般化と堅牢性ベンチマークにおいて競争力の高い精度をもたらしている。
これは、モデルが必ずしも同様の関数を学ぶ必要があるという仮定を再考する動機となる。
ハイパーパラメータ、アーキテクチャ、フレームワーク、データセットにわたるモデルの大規模な実証的研究を行います。
トレーニング手法の多様化にともなうモデルペアは,分類的に異なる一般化行動を示し,非相関的な誤りを生じる。
これらのモデルはデータのサブドメインに特化しており、2つのモデル(いずれも画像Netの精度が76.5%)で83.4%(+7%)のアンサンブルを生成することができる。
驚くべきことに、精度の低いモデルでも高いモデルを改善することができる。
最後に、重なり合う(しかし重なり合わせではない)特徴集合をキャプチャする学習手法の偏りが、下流のパフォーマンスを向上させることを示す。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - A study on the impact of pre-trained model on Just-In-Time defect
prediction [10.205110163570502]
RoBERTaJIT、CodeBERTJIT、BARTJIT、PLBARTJIT、GPT2JIT、CodeGPTJITの6つのモデルを構築します。
本稿では,コミットコードとコミットメッセージを入力として使用する際のモデルの性能と,トレーニング効率とモデル分布の関係について検討する。
論文 参考訳(メタデータ) (2023-09-05T15:34:22Z) - Feature Weaken: Vicinal Data Augmentation for Classification [1.7013938542585925]
モデルトレーニングと同一のコサイン類似性を持つビジナルデータ分布を構築するためにFeature Weakenを用いている。
この研究は、モデルの分類性能と一般化を改善するだけでなく、モデルの訓練を安定させ、モデルの収束を加速させる。
論文 参考訳(メタデータ) (2022-11-20T11:00:23Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。