論文の概要: Mirror, Mirror of the Flow: How Does Regularization Shape Implicit Bias?
- arxiv url: http://arxiv.org/abs/2504.12883v1
- Date: Thu, 17 Apr 2025 12:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:02.611862
- Title: Mirror, Mirror of the Flow: How Does Regularization Shape Implicit Bias?
- Title(参考訳): 鏡, 鏡, 流れの鏡: 正則化はどのようにしてバイアスを引き起こすのか?
- Authors: Tom Jacobs, Chao Zhou, Rebekka Burkholz,
- Abstract要約: 入射バイアスは、モデルをいかに一般化するかを説明する上で重要な役割を果たす。
重量減少のような明示的な規則化は、過度な適合を防ぐためにしばしば用いられる。
トレーニング力学の幾何学における持続的影響を解析する。
- 参考スコア(独自算出の注目度): 16.42340707770231
- License:
- Abstract: Implicit bias plays an important role in explaining how overparameterized models generalize well. Explicit regularization like weight decay is often employed in addition to prevent overfitting. While both concepts have been studied separately, in practice, they often act in tandem. Understanding their interplay is key to controlling the shape and strength of implicit bias, as it can be modified by explicit regularization. To this end, we incorporate explicit regularization into the mirror flow framework and analyze its lasting effects on the geometry of the training dynamics, covering three distinct effects: positional bias, type of bias, and range shrinking. Our analytical approach encompasses a broad class of problems, including sparse coding, matrix sensing, single-layer attention, and LoRA, for which we demonstrate the utility of our insights. To exploit the lasting effect of regularization and highlight the potential benefit of dynamic weight decay schedules, we propose to switch off weight decay during training, which can improve generalization, as we demonstrate in experiments.
- Abstract(参考訳): 入射バイアスは、過度にパラメータ化されたモデルがどのように一般化するかを説明する上で重要な役割を果たす。
重量減少のような明示的な規則化は、過度な適合を防ぐためにしばしば用いられる。
どちらの概念も別々に研究されてきたが、実際には、しばしばタンデムで行動する。
それらの相互作用を理解することは、明示的な正規化によって修正できるため、暗黙のバイアスの形状と強さを制御する鍵となる。
この目的のために、鏡面フローフレームワークに明示的な正規化を組み込み、トレーニングダイナミクスの幾何学における持続的な影響を分析し、位置バイアス、バイアスの種類、範囲縮小の3つの異なる効果をカバーした。
我々の分析的アプローチは、スパースコーディング、マトリックスセンシング、単一層注意、LoRAなど、幅広い種類の問題を含んでおり、私たちの洞察の有用性を実証している。
正規化の持続的効果を生かし、ダイナミックウェイト崩壊スケジュールの潜在的利益を浮き彫りにするため、実験で示すように、トレーニング中のウェイト崩壊をオフにし、一般化を改善することを提案する。
関連論文リスト
- High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文 参考訳(メタデータ) (2024-06-05T12:03:27Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Feature Normalization Prevents Collapse of Non-contrastive Learning
Dynamics [2.124843979686623]
データ拡張によって生成された2つの肯定的なビューをデータ表現空間内のアトラクション力によって類似させるコントラスト学習について検討する。
Tian et al. (2021)は、学習力学解析を通して、データの増大が正規化よりも十分に強い場合、その表現は崩壊を避けることができることを示した。
このコサインの損失は6階のダイナミクス(L2の損失は3階のダイナミクス)を誘導し、安定平衡が動的に現れることを示す。
論文 参考訳(メタデータ) (2023-09-28T02:23:32Z) - A Unified Approach to Controlling Implicit Regularization via Mirror
Descent [18.536453909759544]
ミラー降下(MD)は勾配降下(GD)の顕著な一般化である
MDを効率的に実装することができ、適切な条件下での高速収束を享受できることを示す。
論文 参考訳(メタデータ) (2023-06-24T03:57:26Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Understanding Generalization in Adversarial Training via the
Bias-Variance Decomposition [39.108491135488286]
テストのリスクをバイアスと分散コンポーネントに分解します。
バイアスは摂動の大きさとともに単調に増加し、リスクの主要な用語であることがわかった。
一般化ギャップに対する一般的な説明は、代わりに分散が単調であることを予測している。
論文 参考訳(メタデータ) (2021-03-17T23:30:00Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。