論文の概要: Pareto Frontiers in Neural Feature Learning: Data, Compute, Width, and
Luck
- arxiv url: http://arxiv.org/abs/2309.03800v2
- Date: Mon, 30 Oct 2023 15:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:51:36.476159
- Title: Pareto Frontiers in Neural Feature Learning: Data, Compute, Width, and
Luck
- Title(参考訳): 神経機能学習におけるparetoのフロンティア: データ、計算、幅、運
- Authors: Benjamin L. Edelman, Surbhi Goel, Sham Kakade, Eran Malach, Cyril
Zhang
- Abstract要約: オフラインスパースパリティ学習は,多層パーセプトロンの勾配に基づくトレーニングにおいて,統計的クエリの下限を許容する教師付き分類問題である。
理論上, 実験上, 疎初期化とネットワーク幅の増大がサンプル効率を著しく向上させることを示す。
また,合成スパースパリティタスクは,軸方向の特徴学習を必要とする現実的な問題のプロキシとして有用であることを示す。
- 参考スコア(独自算出の注目度): 35.6883212537938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern deep learning, algorithmic choices (such as width, depth, and
learning rate) are known to modulate nuanced resource tradeoffs. This work
investigates how these complexities necessarily arise for feature learning in
the presence of computational-statistical gaps. We begin by considering offline
sparse parity learning, a supervised classification problem which admits a
statistical query lower bound for gradient-based training of a multilayer
perceptron. This lower bound can be interpreted as a multi-resource tradeoff
frontier: successful learning can only occur if one is sufficiently rich (large
model), knowledgeable (large dataset), patient (many training iterations), or
lucky (many random guesses). We show, theoretically and experimentally, that
sparse initialization and increasing network width yield significant
improvements in sample efficiency in this setting. Here, width plays the role
of parallel search: it amplifies the probability of finding "lottery ticket"
neurons, which learn sparse features more sample-efficiently. Finally, we show
that the synthetic sparse parity task can be useful as a proxy for real
problems requiring axis-aligned feature learning. We demonstrate improved
sample efficiency on tabular classification benchmarks by using wide,
sparsely-initialized MLP models; these networks sometimes outperform tuned
random forests.
- Abstract(参考訳): 現代のディープラーニングでは、アルゴリズムによる選択(幅、深さ、学習率など)がニュアンスドリソーストレードオフを変調することが知られている。
本研究は,これらの複雑度が,計算統計的ギャップの存在下での特徴学習に必然的に現れるかを検討する。
まず,多層パーセプトロンの勾配に基づく学習のための統計的クエリの下限を許容する教師付き分類問題であるオフラインスパースパリティ学習を検討する。
この下限は、多元的トレードオフフロンティアとして解釈することができる: 成功する学習は、十分なリッチ(大きなモデル)、知識のある(大きなデータセット)、患者(多くのトレーニングイテレーション)、幸運(多くのランダムな推測)がある場合にのみ発生する。
理論上, 実験上, 疎初期化とネットワーク幅の増大がサンプル効率を著しく向上させることを示す。
ここで、幅は平行探索の役割を担っている: 「ラッタチケット」ニューロンを見つける確率を増幅し、よりサンプル効率のよい特徴を学習する。
最後に,合成スパースパリティタスクは,軸指向型特徴学習を必要とする実問題に対するプロキシとして有用であることを示す。
広帯域かつ疎初期化MLPモデルを用いて,表層分類ベンチマークにおけるサンプル効率の向上を実証した。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。
データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文 参考訳(メタデータ) (2024-02-16T04:32:22Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Provable Advantage of Curriculum Learning on Parity Targets with Mixed
Inputs [21.528321119061694]
共通サンプル分布における標準(有界)学習率のトレーニングステップ数の分離結果を示す。
また,理論結果の具体的構造を超えた定性的分離を支持する実験結果も提供する。
論文 参考訳(メタデータ) (2023-06-29T13:14:42Z) - Sampling weights of deep neural networks [1.2370077627846041]
完全に接続されたニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。
教師付き学習環境では、内部ネットワークパラメータの反復最適化や勾配計算は不要である。
サンプルネットワークが普遍近似器であることを証明する。
論文 参考訳(メタデータ) (2023-06-29T10:13:36Z) - Learning sparse features can lead to overfitting in neural networks [9.2104922520782]
機能学習は遅延トレーニングよりもパフォーマンスが良くないことを示す。
空間性は異方性データの学習に不可欠であることが知られているが、対象関数が一定あるいは滑らかな場合に有害である。
論文 参考訳(メタデータ) (2022-06-24T14:26:33Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。