Fugu-MT 論文翻訳(概要): Dodging the Double Descent in Deep Neural Networks

論文の概要: Dodging the Double Descent in Deep Neural Networks

arxiv url: http://arxiv.org/abs/2302.13259v2
Date: Wed, 1 Mar 2023 16:18:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-02 11:46:13.345821
Title: Dodging the Double Descent in Deep Neural Networks
Title（参考訳）: 深部ニューラルネットワークにおけるダブルディフレージング
Authors: Victor Qu\'etu and Enzo Tartaglione
Abstract要約: 二重降下は、ディープラーニングコミュニティの注目を集めている。これは、高一般化を維持するために最適なモデルのサイズについて深刻な疑問を提起する。本研究は, 学習問題の適切な条件付けにより, 二重降下現象は回避可能であることを示す。
参考スコア（独自算出の注目度）: 3.1473798197405944
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Finding the optimal size of deep learning models is very actual and of broad impact, especially in energy-saving schemes. Very recently, an unexpected phenomenon, the ``double descent'', has caught the attention of the deep learning community. As the model's size grows, the performance gets first worse, and then goes back to improving. It raises serious questions about the optimal model's size to maintain high generalization: the model needs to be sufficiently over-parametrized, but adding too many parameters wastes training resources. Is it possible to find, in an efficient way, the best trade-off? Our work shows that the double descent phenomenon is potentially avoidable with proper conditioning of the learning problem, but a final answer is yet to be found. We empirically observe that there is hope to dodge the double descent in complex scenarios with proper regularization, as a simple $\ell_2$ regularization is already positively contributing to such a perspective.
Abstract（参考訳）: ディープラーニングモデルの最適サイズを見つけることは、特に省エネスキームにおいて、非常に現実的で幅広い影響を与える。最近になって,予期せぬ現象である‘二重降下’が,ディープラーニングコミュニティの注目を集めている。モデルのサイズが大きくなると、まずパフォーマンスが悪化し、その後は改善に戻ります。これは、高一般化を維持するために最適なモデルのサイズに関する深刻な疑問を提起する: モデルは十分に過度にパラメータ化する必要があるが、パラメータが多すぎるとトレーニングリソースが浪費される。効果的な方法で、最良のトレードオフを見つけることは可能か? 本研究は,学習問題の適切な条件付けによって二重降下現象を回避できる可能性を示唆するが,最終的な答えは見当たらない。我々は、単純な$\ell_2$正則化が既にそのような観点に肯定的な貢献をしているので、適切な正則化を持つ複素シナリオにおいて二重降下が期待されていることを実証的に観察する。

関連論文リスト

Do Language Models Use Their Depth Efficiently? [53.56816097840505]
Llama 3.1 および Qwen 3 モデルの残留ストリームを分析する。後半のレイヤが前半のレイヤよりもはるかに少ないことが分かりました。マルチホップタスクでは、モデルが深度を増してサブレサルを構成するという証拠が見つからない。
論文参考訳（メタデータ） (2025-05-20T04:00:56Z)
Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文参考訳（メタデータ） (2024-04-03T16:33:42Z)
Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文参考訳（メタデータ） (2024-03-15T16:51:24Z)
The Quest of Finding the Antidote to Sparse Double Descent [1.336445018915526]
モデルの幅が大きくなると、まず性能が悪化し、その後改善され、最終的に劣化する。このような単調な振る舞いは、高性能を維持するために最適なモデルのサイズについて深刻な疑問を提起する。単純な$ell$正規化法は、この現象を緩和するのに役立つが、性能/疎結合性を犠牲にする。
論文参考訳（メタデータ） (2023-08-31T09:56:40Z)
Learning to Jump: Thinning and Thickening Latent Counts for Generative Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文参考訳（メタデータ） (2023-05-28T05:38:28Z)
Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文参考訳（メタデータ） (2023-04-09T20:36:13Z)
DSD$^2$: Can We Dodge Sparse Double Descent and Compress the Neural Network Worry-Free? [7.793339267280654]
このような現象を回避し、一般化を改善する学習フレームワークを提案する。第2に,この現象の持続性に関する洞察を提供するエントロピー尺度を導入する。第3に、再初期化法、モデル幅と深さ、データセットノイズなどの要因を包括的に定量的に分析する。
論文参考訳（メタデータ） (2023-03-02T12:54:12Z)
Sparse Double Descent: Where Network Pruning Aggravates Overfitting [8.425040193238777]
本稿では,ネットワークプルーニングによるモデル間隔の増加に伴い,テスト性能が悪化する予期せぬ二重降下現象を報告する。本稿では,スパースモデルの学習距離$ell_2$の曲線がスパース二重降下曲線とよく相関することを示す。
論文参考訳（メタデータ） (2022-06-17T11:02:15Z)
The Low-Rank Simplicity Bias in Deep Networks [46.79964271742486]
我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
論文参考訳（メタデータ） (2021-03-18T17:58:02Z)
Do Wider Neural Networks Really Help Adversarial Robustness? [92.8311752980399]
モデルロバスト性は自然精度と摂動安定性のトレードオフと密接に関係していることを示す。本稿では,ワイドモデル上でラムダ$を適応的に拡大するWidth Adjusted Regularization(WAR)手法を提案する。
論文参考訳（メタデータ） (2020-10-03T04:46:17Z)
Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文参考訳（メタデータ） (2020-02-26T15:40:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。