Fugu-MT 論文翻訳(概要): Re-examining Double Descent and Scaling Laws under Norm-based Capacity via Deterministic Equivalence

論文の概要: Re-examining Double Descent and Scaling Laws under Norm-based Capacity via Deterministic Equivalence

arxiv url: http://arxiv.org/abs/2502.01585v1
Date: Mon, 03 Feb 2025 18:10:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.344259
Title: Re-examining Double Descent and Scaling Laws under Norm-based Capacity via Deterministic Equivalence
Title（参考訳）: 決定論的等価性によるノルム系キャパシティ下での二重輝線法とスケーリング法の再検討
Authors: Yichen Wang, Yudong Chen, Lorenzo Rosasco, Fanghui Liu,
Abstract要約: パラメータの数よりも重みの点で、二重降下法則とスケーリング法則について検討する。本研究の結果は,ノルムベースキャパシティの下で二重降下が存在するかどうかを厳格に答え,対応するスケーリング法則を再形成する。
参考スコア（独自算出の注目度）: 20.88908358215574
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate double descent and scaling laws in terms of weights rather than the number of parameters. Specifically, we analyze linear and random features models using the deterministic equivalence approach from random matrix theory. We precisely characterize how the weights norm concentrate around deterministic quantities and elucidate the relationship between the expected test error and the norm-based capacity (complexity). Our results rigorously answer whether double descent exists under norm-based capacity and reshape the corresponding scaling laws. Moreover, they prompt a rethinking of the data-parameter paradigm - from under-parameterized to over-parameterized regimes - by shifting the focus to norms (weights) rather than parameter count.
Abstract（参考訳）: パラメータの数よりも重みの点で、二重降下法則とスケーリング法則について検討する。具体的には、確率行列理論から決定論的同値性アプローチを用いて線形特徴モデルとランダム特徴モデルを解析する。重みのノルムが決定論的量にどのように集中しているかを正確に把握し、期待されるテストエラーとノルムベースのキャパシティ(複雑さ)の関係を解明する。本研究の結果は,ノルムベースキャパシティの下で二重降下が存在するかどうかを厳格に答え,対応するスケーリング法則を再形成する。さらに、パラメータカウントではなく基準(ウェイト)に焦点を移すことによって、データパラメータパラダイムの再考を、過度にパラメータ化された状態から過度にパラメータ化された状態へと促す。

関連論文リスト

Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文参考訳（メタデータ） (2025-07-15T16:33:01Z)
Variational Deep Learning via Implicit Regularization [20.449095674026363]
最適化手法を用いて,変分深度ネットワークを暗黙的に正規化する方法を示す。過度にパラメータ化された線形モデルの場合、勾配降下の帰納バイアスを完全に特徴づける。
論文参考訳（メタデータ） (2025-05-26T17:15:57Z)
(Neural-Symbolic) Machine Learning for Inconsistency Measurement [0.0]
本稿では、命題論理知識ベースに対する不整合(数値値)の次数を決定するための機械学習ベースのアプローチを提案する。具体的には、不整合度が$incmi$と$incat$が命題論理知識ベースに割り当てる値を予測することを学習する回帰モデルとニューラルベースモデルを提案する。
論文参考訳（メタデータ） (2025-02-05T08:00:30Z)
Norm-Bounded Low-Rank Adaptation [10.22454500514559]
重み適応行列の各特異値に対する明示的な境界を許容する2つのパラメータ化を導入する。視覚的微調整ベンチマーク実験により,提案手法は適応性能がよいことを示す。また、プライバシ保護モデルマージと低ランク行列補完の応用についても検討する。
論文参考訳（メタデータ） (2025-01-31T11:24:57Z)
On the Geometry of Regularization in Adversarial Training: High-Dimensional Asymptotics and Generalization Bounds [11.30047438005394]
本研究では, 正規化ノルム $lVert cdot rVert$ を二項分類のための高次元対角訓練の文脈で選択する方法について検討する。我々は、摂動サイズと$lVert cdot rVert$の最適選択との関係を定量的に評価し、データ不足状態において、摂動が大きくなるにつれて、正則化のタイプが敵の訓練にとってますます重要になっていることを確認する。
論文参考訳（メタデータ） (2024-10-21T14:53:12Z)
Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文参考訳（メタデータ） (2024-05-01T15:59:00Z)
Variational Bayesian surrogate modelling with application to robust design optimisation [0.9626666671366836]
サロゲートモデルは複雑な計算モデルに対して素早く評価できる近似を提供する。入力の不確かさと次元減少を伴う統計的代理を構築するためのベイズ推定について考察する。コスト関数がモデル出力の平均および標準偏差の重み付け和に依存するような本質的で頑健な構造最適化問題を示す。
論文参考訳（メタデータ） (2024-04-23T09:22:35Z)
Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文参考訳（メタデータ） (2024-02-13T11:25:20Z)
Gradient-based bilevel optimization for multi-penalty Ridge regression through matrix differential calculus [0.46040036610482665]
我々は,l2-正則化を用いた線形回帰問題に対する勾配に基づくアプローチを導入する。提案手法はLASSO, Ridge, Elastic Netレグレッションよりも優れていることを示す。勾配の解析は、自動微分と比較して計算時間の観点からより効率的であることが証明されている。
論文参考訳（メタデータ） (2023-11-23T20:03:51Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Least Squares Regression Can Exhibit Under-Parameterized Double Descent [6.645111950779666]
本研究では,学習データ点数,パラメータ数,モデルの一般化能力の関係について検討する。ピークの位置は、スペクトルとサンプル共分散の固有ベクトルの両方の技術的性質に依存すると仮定する。
論文参考訳（メタデータ） (2023-05-24T03:52:48Z)
Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文参考訳（メタデータ） (2023-05-19T08:22:23Z)
Evaluating Disentanglement in Generative Models Without Knowledge of Latent Factors [71.79984112148865]
本稿では,学習中に提示される学習力学に基づいて生成モデルのランキング付けを行う手法を提案する。本手法は,近年の解離の理論的特徴から着想を得たものであり,その根底にある潜伏因子の監督は不要である。
論文参考訳（メタデータ） (2022-10-04T17:27:29Z)
ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。 ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文参考訳（メタデータ） (2022-06-24T08:18:05Z)
Post-mortem on a deep learning contest: a Simpson's paradox and the complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文参考訳（メタデータ） (2021-06-01T19:19:49Z)
Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは経験的に過剰フィットを防げる中心的存在ですこの研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文参考訳（メタデータ） (2021-03-23T17:15:53Z)
Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文参考訳（メタデータ） (2021-02-12T12:23:13Z)
Bias-Variance Trade-off and Overlearning in Dynamic Decision Problems [1.2183405753834562]
動的決定問題に対する現代のモンテカルロ型アプローチは、経験的損失最小化として再編成される。これらの計算手法をこのフレームワークで解析し、それらの効果と一般化誤差に対する感受性を実証する。
論文参考訳（メタデータ） (2020-11-18T15:36:22Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
Asymptotics of Ridge (less) Regression under General Source Condition [26.618200633139256]
我々は,真の回帰パラメータの構造が果たす役割を考察する。有界信号-雑音比(SNR)においても(正規化なし)が最適であることを示す。これは、リッジ回帰を考慮した以前の研究と対照的であり、この場合、無限 SNR の極限においてのみ最適である。
論文参考訳（メタデータ） (2020-06-11T13:00:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。