論文の概要: Overparameterized (robust) models from computational constraints
- arxiv url: http://arxiv.org/abs/2208.12926v1
- Date: Sat, 27 Aug 2022 04:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:07:06.365344
- Title: Overparameterized (robust) models from computational constraints
- Title(参考訳): 計算制約による過パラメータ(ロバスト)モデル
- Authors: Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody,
Mingyuan Wang
- Abstract要約: パラメータの少ないモデルを得るために,強調文を計算的に有界にすることができることを示す。
また、堅牢な学習には、さらに多くのモデルパラメータが必要であることも示しています。
- 参考スコア(独自算出の注目度): 36.06008129636809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overparameterized models with millions of parameters have been hugely
successful. In this work, we ask: can the need for large models be, at least in
part, due to the \emph{computational} limitations of the learner? Additionally,
we ask, is this situation exacerbated for \emph{robust} learning? We show that
this indeed could be the case. We show learning tasks for which computationally
bounded learners need \emph{significantly more} model parameters than what
information-theoretic learners need. Furthermore, we show that even more model
parameters could be necessary for robust learning. In particular, for
computationally bounded learners, we extend the recent result of Bubeck and
Sellke [NeurIPS'2021] which shows that robust models might need more
parameters, to the computational regime and show that bounded learners could
provably need an even larger number of parameters. Then, we address the
following related question: can we hope to remedy the situation for robust
computationally bounded learning by restricting \emph{adversaries} to also be
computationally bounded for sake of obtaining models with fewer parameters?
Here again, we show that this could be possible. Specifically, building on the
work of Garg, Jha, Mahloujifar, and Mahmoody [ALT'2020], we demonstrate a
learning task that can be learned efficiently and robustly against a
computationally bounded attacker, while to be robust against an
information-theoretic attacker requires the learner to utilize significantly
more parameters.
- Abstract(参考訳): 数百万のパラメータを持つ過パラメータ化モデルは、非常に成功した。
大規模モデルの必要性は、少なくとも部分的には、学習者の \emph{computational} 制限のためにあるのだろうか?
さらに、この状況は \emph{robust} 学習を悪化させるのでしょうか?
これは本当にあり得ることを示しています。
情報理論学習者に必要なパラメータよりも,計算的に有界な学習者に必要なモデルパラメータを必要とする学習タスクを示す。
さらに,頑健な学習にはさらに多くのモデルパラメータが必要であることを示す。
特に、計算的に有界な学習者に対しては、頑健なモデルがより多くのパラメータを必要とする可能性があることを示すBubeck and Sellke [NeurIPS'2021]の最近の結果を拡張し、有界な学習者がさらに多くのパラメータを必要とすることを示す。
emph{adversaries} を限定することで、より少ないパラメータのモデルを得るために計算的に有界になることで、堅牢な計算的有界学習の状況を改善することができるか?
ここでも、これが可能であることを示す。
具体的には、Garg, Jha, Mahloujifar, Mahmoody (ALT'2020) の作業に基づいて、情報理論攻撃者に対して堅牢であるためには、学習者がはるかに多くのパラメータを利用する必要がある一方で、計算的に拘束された攻撃者に対して効率的かつ堅牢に学習できる学習タスクを実証する。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - LoRA Unlearns More and Retains More (Student Abstract) [0.0]
PruneLoRAは、モデルに低ランクの更新を適用することで、大規模なパラメータ更新の必要性を減らす。
そこで我々はLoRAを利用してプルーンドモデルのパラメータのサブセットを選択的に修正し、計算コスト、メモリ要件を低減し、残りのクラスの性能を維持するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-11-16T16:47:57Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler [34.416299887009195]
提案したWSDスケジューラの最適学習率,バッチサイズ,トレーニングトークン数の相関について検討した。
本稿では,学習率スケジューラであるPowerスケジューラを提案する。
Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-23T20:22:20Z) - RepCNN: Micro-sized, Mighty Models for Wakeword Detection [3.4888176891918654]
常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。
より大規模なマルチブランチアーキテクチャへの計算によって、小さな畳み込みモデルをよりよく訓練できることが示される。
我々は、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。
論文 参考訳(メタデータ) (2024-06-04T16:14:19Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Is the Number of Trainable Parameters All That Actually Matters? [2.624902795082451]
スケーリング法を仮に騙し、より大規模なモデルを安価にトレーニングする方法を調査する。
テスト損失と計算の間のスケーリングの関係は、トレーニング可能なパラメータの実際の数にのみ依存することがわかった。
論文 参考訳(メタデータ) (2021-09-24T12:43:58Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Training Deep Neural Networks with Constrained Learning Parameters [4.917317902787792]
ディープラーニングタスクのかなりの部分はエッジコンピューティングシステムで実行される。
我々は, Combinatorial Neural Network Training Algorithm (CNNTrA)を提案する。
CoNNTrAは、MNIST、Iris、ImageNetデータセット上で、第三次学習パラメータでディープラーニングモデルをトレーニングする。
以上の結果から,CNNTrAモデルはメモリを32倍に削減し,バックプロパゲーションモデルと同程度の誤差を有することがわかった。
論文 参考訳(メタデータ) (2020-09-01T16:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。