論文の概要: HAM: A Hyperbolic Step to Regulate Implicit Bias
- arxiv url: http://arxiv.org/abs/2506.02630v1
- Date: Tue, 03 Jun 2025 08:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.498167
- Title: HAM: A Hyperbolic Step to Regulate Implicit Bias
- Title(参考訳): HAM:過剰なバイアスを規制するハイパーボリックなステップ
- Authors: Tom Jacobs, Advait Gadhikar, Celia Rubio-Madrigal, Rebekka Burkholz,
- Abstract要約: 我々は、HAM(Hyperbolic Minimization)がオーバーヘッドステップと新しいハイパーボリックミラーステップとを交互に行うことを示す。
ハムの暗黙の偏見は、厳密なトレーニングでさえ、常にパフォーマンスを高める。
ハムは、様々なスパリフィケーション法と組み合わせて、芸術の状況を改善するのに特に効果的である。
- 参考スコア(独自算出の注目度): 14.701241300621648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the implicit bias of optimization algorithms has become central to explaining the generalization behavior of deep learning models. For instance, the hyperbolic implicit bias induced by the overparameterization $m \odot w$--though effective in promoting sparsity--can result in a small effective learning rate, which slows down convergence. To overcome this obstacle, we propose HAM (Hyperbolic Aware Minimization), which alternates between an optimizer step and a new hyperbolic mirror step. We derive the Riemannian gradient flow for its combination with gradient descent, leading to improved convergence and a similar beneficial hyperbolic geometry as $m \odot w$ for feature learning. We provide an interpretation of the the algorithm by relating it to natural gradient descent, and an exact characterization of its implicit bias for underdetermined linear regression. HAM's implicit bias consistently boosts performance--even of dense training, as we demonstrate in experiments across diverse tasks, including vision, graph and node classification, and large language model fine-tuning. HAM is especially effective in combination with different sparsification methods, improving upon the state of the art. The hyperbolic step requires minimal computational and memory overhead, it succeeds even with small batch sizes, and its implementation integrates smoothly with existing optimizers.
- Abstract(参考訳): 最適化アルゴリズムの暗黙のバイアスを理解することは、ディープラーニングモデルの一般化挙動を説明する上で重要である。
例えば、過度パラメータ化$m \odot w$-によって引き起こされる双曲的暗黙バイアスは、空間性を促進するのに有効である。
この障害を克服するために、最適化ステップと新しい双曲ミラーステップを交互に行うHAM(Hyperbolic Aware Minimization)を提案する。
我々はリーマン勾配流を勾配降下と組み合わせて導出し、収束性の向上と、特徴学習に$m \odot w$のような有益な双曲幾何学を導出する。
本稿では,このアルゴリズムを自然勾配降下に関連付けて解釈し,その暗黙的偏差を過度に決定した線形回帰に対して正確に評価する。
視覚、グラフ、ノードの分類、大規模言語モデルの微調整など、さまざまなタスクの実験で示されたように、HAMの暗黙のバイアスは、高密度トレーニングのパフォーマンスを継続的に向上させます。
HAMは、様々なスペーシフィケーション手法と組み合わせて、最先端技術の改善に特に有効である。
双曲的なステップは計算とメモリのオーバーヘッドを最小限に抑え、小さなバッチサイズでも成功し、その実装は既存のオプティマイザとスムーズに統合される。
関連論文リスト
- Randomised Splitting Methods and Stochastic Gradient Descent [0.0]
勾配最適化のための新しいミニバッチ戦略(Symmetric Minibatching Strategy)を導入する。
我々は,Lynov技術を用いたこの新しいミニバッチ戦略に対して,コンバージェンス保証の改善を提供する。
また、段階的なスケジュールの縮小を考慮すると、収束速度が速くなるとも論じている。
論文 参考訳(メタデータ) (2025-04-05T20:07:34Z) - Optimistic Gradient Learning with Hessian Corrections for High-Dimensional Black-Box Optimization [14.073853819633745]
ブラックボックスアルゴリズムは、基礎となる解析構造や勾配情報に頼ることなく、関数を最適化するように設計されている。
本研究では,高次元・複雑・非線形問題による課題に対処するための2つの新しい勾配学習変種を提案する。
論文 参考訳(メタデータ) (2025-02-07T11:03:50Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Robust Hyperbolic Learning with Curvature-Aware Optimization [7.89323764547292]
現在の双曲型学習アプローチは、過度に適合し、計算コストが高く、不安定になりがちである。
本稿では,双曲的埋め込みを制限し,近似誤差を低減するために,新しい微調整可能な双曲的スケーリング手法を提案する。
提案手法は,コンピュータビジョン,脳波分類,階層的メトリック学習タスクにおける一貫した改善を示す。
論文 参考訳(メタデータ) (2024-05-22T20:30:14Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。