Fugu-MT 論文翻訳(概要): Overparameterized (robust) models from computational constraints

論文の概要: Overparameterized (robust) models from computational constraints

arxiv url: http://arxiv.org/abs/2208.12926v1
Date: Sat, 27 Aug 2022 04:50:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-30 13:07:06.365344
Title: Overparameterized (robust) models from computational constraints
Title（参考訳）: 計算制約による過パラメータ(ロバスト)モデル
Authors: Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Mingyuan Wang
Abstract要約: パラメータの少ないモデルを得るために,強調文を計算的に有界にすることができることを示す。また、堅牢な学習には、さらに多くのモデルパラメータが必要であることも示しています。
参考スコア（独自算出の注目度）: 36.06008129636809
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Overparameterized models with millions of parameters have been hugely successful. In this work, we ask: can the need for large models be, at least in part, due to the \emph{computational} limitations of the learner? Additionally, we ask, is this situation exacerbated for \emph{robust} learning? We show that this indeed could be the case. We show learning tasks for which computationally bounded learners need \emph{significantly more} model parameters than what information-theoretic learners need. Furthermore, we show that even more model parameters could be necessary for robust learning. In particular, for computationally bounded learners, we extend the recent result of Bubeck and Sellke [NeurIPS'2021] which shows that robust models might need more parameters, to the computational regime and show that bounded learners could provably need an even larger number of parameters. Then, we address the following related question: can we hope to remedy the situation for robust computationally bounded learning by restricting \emph{adversaries} to also be computationally bounded for sake of obtaining models with fewer parameters? Here again, we show that this could be possible. Specifically, building on the work of Garg, Jha, Mahloujifar, and Mahmoody [ALT'2020], we demonstrate a learning task that can be learned efficiently and robustly against a computationally bounded attacker, while to be robust against an information-theoretic attacker requires the learner to utilize significantly more parameters.
Abstract（参考訳）: 数百万のパラメータを持つ過パラメータ化モデルは、非常に成功した。大規模モデルの必要性は、少なくとも部分的には、学習者の \emph{computational} 制限のためにあるのだろうか? さらに、この状況は \emph{robust} 学習を悪化させるのでしょうか? これは本当にあり得ることを示しています。情報理論学習者に必要なパラメータよりも,計算的に有界な学習者に必要なモデルパラメータを必要とする学習タスクを示す。さらに,頑健な学習にはさらに多くのモデルパラメータが必要であることを示す。特に、計算的に有界な学習者に対しては、頑健なモデルがより多くのパラメータを必要とする可能性があることを示すBubeck and Sellke [NeurIPS'2021]の最近の結果を拡張し、有界な学習者がさらに多くのパラメータを必要とすることを示す。 emph{adversaries} を限定することで、より少ないパラメータのモデルを得るために計算的に有界になることで、堅牢な計算的有界学習の状況を改善することができるか? ここでも、これが可能であることを示す。具体的には、Garg, Jha, Mahloujifar, Mahmoody (ALT'2020) の作業に基づいて、情報理論攻撃者に対して堅牢であるためには、学習者がはるかに多くのパラメータを利用する必要がある一方で、計算的に拘束された攻撃者に対して効率的かつ堅牢に学習できる学習タスクを実証する。

関連論文リスト

Sharpness-Aware Parameter Selection for Machine Unlearning [6.397490580631141]
クレジットカード番号やパスワードなど、機密性の高い個人情報が誤って機械学習モデルのトレーニングに組み込まれており、その後削除する必要がある場合が多い。この問題に対処するために、文献に様々な機械学習技術が提案されている。提案手法のほとんどは、トレーニングされたモデルから個々のデータサンプルを除去するものである。これらのタスクの既存の方法は、モデルパラメータの集合全体またはモデルの最後の層のみを更新することで、未学習タスクを行うが、未学習ターゲット機能に最も貢献するモデルパラメータのサブセットが存在することを示す。
論文参考訳（メタデータ） (2025-04-08T19:41:07Z)
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文参考訳（メタデータ） (2025-02-07T18:55:02Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
LoRA Unlearns More and Retains More (Student Abstract) [0.0]
PruneLoRAは、モデルに低ランクの更新を適用することで、大規模なパラメータ更新の必要性を減らす。そこで我々はLoRAを利用してプルーンドモデルのパラメータのサブセットを選択的に修正し、計算コスト、メモリ要件を低減し、残りのクラスの性能を維持するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-11-16T16:47:57Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler [34.416299887009195]
提案したWSDスケジューラの最適学習率,バッチサイズ,トレーニングトークン数の相関について検討した。本稿では,学習率スケジューラであるPowerスケジューラを提案する。 Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-08-23T20:22:20Z)
RepCNN: Micro-sized, Mighty Models for Wakeword Detection [3.4888176891918654]
常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。より大規模なマルチブランチアーキテクチャへの計算によって、小さな畳み込みモデルをよりよく訓練できることが示される。我々は、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。
論文参考訳（メタデータ） (2024-06-04T16:14:19Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文参考訳（メタデータ） (2022-01-08T00:47:50Z)
Is the Number of Trainable Parameters All That Actually Matters? [2.624902795082451]
スケーリング法を仮に騙し、より大規模なモデルを安価にトレーニングする方法を調査する。テスト損失と計算の間のスケーリングの関係は、トレーニング可能なパラメータの実際の数にのみ依存することがわかった。
論文参考訳（メタデータ） (2021-09-24T12:43:58Z)
Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文参考訳（メタデータ） (2021-02-11T16:27:31Z)
Training Deep Neural Networks with Constrained Learning Parameters [4.917317902787792]
ディープラーニングタスクのかなりの部分はエッジコンピューティングシステムで実行される。我々は, Combinatorial Neural Network Training Algorithm (CNNTrA)を提案する。 CoNNTrAは、MNIST、Iris、ImageNetデータセット上で、第三次学習パラメータでディープラーニングモデルをトレーニングする。以上の結果から,CNNTrAモデルはメモリを32倍に削減し,バックプロパゲーションモデルと同程度の誤差を有することがわかった。
論文参考訳（メタデータ） (2020-09-01T16:20:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。