論文の概要: The Quest of Finding the Antidote to Sparse Double Descent
- arxiv url: http://arxiv.org/abs/2308.16596v1
- Date: Thu, 31 Aug 2023 09:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:53:36.339441
- Title: The Quest of Finding the Antidote to Sparse Double Descent
- Title(参考訳): 二重降下をまき散らすための解毒剤を見つける探求
- Authors: Victor Qu\'etu and Marta Milovanovi\'c
- Abstract要約: モデルの幅が大きくなると、まず性能が悪化し、その後改善され、最終的に劣化する。
このような単調な振る舞いは、高性能を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
単純な$ell$正規化法は、この現象を緩和するのに役立つが、性能/疎結合性を犠牲にする。
- 参考スコア(独自算出の注目度): 1.336445018915526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In energy-efficient schemes, finding the optimal size of deep learning models
is very important and has a broad impact. Meanwhile, recent studies have
reported an unexpected phenomenon, the sparse double descent: as the model's
sparsity increases, the performance first worsens, then improves, and finally
deteriorates. Such a non-monotonic behavior raises serious questions about the
optimal model's size to maintain high performance: the model needs to be
sufficiently over-parametrized, but having too many parameters wastes training
resources.
In this paper, we aim to find the best trade-off efficiently. More precisely,
we tackle the occurrence of the sparse double descent and present some
solutions to avoid it. Firstly, we show that a simple $\ell_2$ regularization
method can help to mitigate this phenomenon but sacrifices the
performance/sparsity compromise. To overcome this problem, we then introduce a
learning scheme in which distilling knowledge regularizes the student model.
Supported by experimental results achieved using typical image classification
setups, we show that this approach leads to the avoidance of such a phenomenon.
- Abstract(参考訳): エネルギー効率の高いスキームでは、ディープラーニングモデルの最適サイズを見つけることが非常に重要であり、幅広い影響を与える。
一方、最近の研究では予期せぬ現象が報告されており、モデルのスパーシティが増加するにつれて、パフォーマンスがまず悪化し、その後改善され、最終的に低下する。
このような非単調な振る舞いは、高パフォーマンスを維持するために最適なモデルのサイズに関する深刻な疑問を提起する。
本稿では,効率的に最良のトレードオフを見つけることを目的とする。
より正確には、スパース二重降下の発生に取り組み、それを避けるためのいくつかの解決策を示す。
第一に、単純な$\ell_2$正規化手法は、この現象を緩和するのに役立つが、パフォーマンス/スパーシティの妥協を犠牲にする。
そこで,本研究では,知識を蒸留して学生モデルを正規化する学習手法を提案する。
典型的な画像分類装置を用いて得られた実験結果から,本手法がこのような現象の回避に繋がることを示す。
関連論文リスト
- The Epochal Sawtooth Effect: Unveiling Training Loss Oscillations in Adam and Other Optimizers [8.770864706004472]
テキストEpochal Sawtooth Effect (ESE) と呼ばれる繰り返し学習損失パターンを特定し解析する。
このパターンは、各エポックの始めに急激な損失が減少し、その後徐々に増加し、ソートゥース状の損失曲線が生じる。
Epochal Sawtooth 効果に繋がるメカニズムの詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-10-14T00:51:21Z) - Can we avoid Double Descent in Deep Neural Networks? [3.1473798197405944]
二重降下は、ディープラーニングコミュニティの注目を集めている。
これは、高一般化を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
本研究は, 学習問題の適切な条件付けにより, 二重降下現象は回避可能であることを示す。
論文 参考訳(メタデータ) (2023-02-26T08:12:28Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and
Cycle Idempotence [76.93002743194974]
本稿では、任意の再スケーリング(アップスケーリングとダウンスケーリングの両方)を統一プロセスとして扱う方法を提案する。
提案モデルでは、アップスケーリングとダウンスケーリングを同時に学習し、双方向の任意のイメージ再スケーリングを実現する。
繰り返しにダウンスケーリング・アップスケーリング・サイクルが適用された場合, 復元精度が著しく低下することなく, サイクルイデオポテンス試験において堅牢であることが確認された。
論文 参考訳(メタデータ) (2022-03-02T07:42:15Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z) - Efficient Iterative Amortized Inference for Learning Symmetric and
Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。
対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。
標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文 参考訳(メタデータ) (2021-06-07T14:02:49Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。