論文の概要: A Universal Banach--Bregman Framework for Stochastic Iterations: Unifying Stochastic Mirror Descent, Learning and LLM Training
- arxiv url: http://arxiv.org/abs/2509.14216v1
- Date: Wed, 17 Sep 2025 17:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.945094
- Title: A Universal Banach--Bregman Framework for Stochastic Iterations: Unifying Stochastic Mirror Descent, Learning and LLM Training
- Title(参考訳): 確率的反復のための普遍的バナッハ-ブレーグマンフレームワーク:確率的ミラーディフレッシュ、学習、LLMトレーニングの統合
- Authors: Johnny R. Zhang, Xiaomei Mi, Gaoyuan Du, Qianyi Sun, Shiqi Wang, Jiaxuan Li, Wenhua Zhou,
- Abstract要約: この研究は最適化のための先駆的なBanach--Bregmanフレームワークを導入する。
次世代最適化の基礎としてブレグマン幾何学を確立している。
機械学習、ディープラーニング、強化学習、および大規模言語モデルにわたる実証的研究は、最大で20%高速収束を示している。
- 参考スコア(独自算出の注目度): 8.57419236859437
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Stochastic optimization powers the scalability of modern artificial intelligence, spanning machine learning, deep learning, reinforcement learning, and large language model training. Yet, existing theory remains largely confined to Hilbert spaces, relying on inner-product frameworks and orthogonality. This paradigm fails to capture non-Euclidean settings, such as mirror descent on simplices, Bregman proximal methods for sparse learning, natural gradient descent in information geometry, or Kullback--Leibler-regularized language model training. Unlike Euclidean-based Hilbert-space methods, this approach embraces general Banach spaces. This work introduces a pioneering Banach--Bregman framework for stochastic iterations, establishing Bregman geometry as a foundation for next-generation optimization. It (i) provides a unified template via Bregman projections and Bregman--Fejer monotonicity, encompassing stochastic approximation, mirror descent, natural gradient, adaptive methods, and mirror-prox; (ii) establishes super-relaxations ($\lambda > 2$) in non-Hilbert settings, enabling flexible geometries and elucidating their acceleration effect; and (iii) delivers convergence theorems spanning almost-sure boundedness to geometric rates, validated on synthetic and real-world tasks. Empirical studies across machine learning (UCI benchmarks), deep learning (e.g., Transformer training), reinforcement learning (actor--critic), and large language models (WikiText-2 with distilGPT-2) show up to 20% faster convergence, reduced variance, and enhanced accuracy over classical baselines. These results position Banach--Bregman geometry as a cornerstone unifying optimization theory and practice across core AI paradigms.
- Abstract(参考訳): 確率的最適化は、機械学習、ディープラーニング、強化学習、大規模言語モデルトレーニングなど、現代の人工知能のスケーラビリティを支えている。
しかし、既存の理論は主にヒルベルト空間に限られており、内積の枠組みや直交性に依存している。
このパラダイムは、単純化のミラー降下、スパース学習のブレグマン近位法、情報幾何学の自然な勾配降下、クルバック・リーブラ正規化言語モデルトレーニングなど、ユークリッドでない設定を捉えるのに失敗する。
ユークリッドベースのヒルベルト空間法とは異なり、このアプローチは一般的なバナッハ空間を受け入れる。
この研究は確率的反復のための先駆的なバナッハ-ブレグマンフレームワークを導入し、次世代最適化の基礎としてブレグマン幾何学を確立した。
それ
(i)ブレグマン射影とブレグマン-ファイア単調性を通じて統一テンプレートを提供し、確率近似、ミラー降下、自然勾配、適応法及びミラープロキシを含む。
(ii)非ヒルベルト設定における超相対論(\lambda > 2$)を確立し、フレキシブルなジオメトリを可能にし、それらの加速度効果を解明する。
(iii) ほぼ自由な有界性にまたがる収束定理を幾何速度に提供し、合成および実世界のタスクで検証する。
機械学習(UCIベンチマーク)、ディープラーニング(Transformer Training)、強化学習(Actor-critic)、および大規模言語モデル(WikiText-2 with distilGPT-2)にわたる実証的研究は、最大で20%高速収束、分散の低減、古典的ベースラインの精度の向上などを実現している。
これらの結果は、Banach--Bregman幾何学を、コアAIパラダイム全体にわたる最適化理論と実践の基盤として位置づけている。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Geometrically Inspired Kernel Machines for Collaborative Learning Beyond Gradient Descent [36.59087823764832]
本稿では,幾何学的にインスパイアされたカーネルマシンを用いた協調学習のための新しい数学的枠組みを開発する。
分類問題に対しては、与えられたデータ点の周りの有界な幾何学構造を学習することができる。
論文 参考訳(メタデータ) (2024-07-05T08:20:27Z) - Randomized Geometric Algebra Methods for Convex Neural Networks [45.318490912354825]
我々はクリフォードの幾何代数にランダム化アルゴリズムを導入し、超複素ベクトル空間にランダム化線形代数を一般化する。
この新しいアプローチは、凸最適化によるグローバル最適性へのニューラルネットワークのトレーニングを含む、機械学習に多くの意味を持つ。
論文 参考訳(メタデータ) (2024-06-04T22:22:39Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Stochastic Flows and Geometric Optimization on the Orthogonal Group [52.50121190744979]
直交群 $O(d)$ 上の幾何駆動最適化アルゴリズムの新しいクラスを示す。
提案手法は,深層,畳み込み,反復的なニューラルネットワーク,強化学習,フロー,メトリック学習など,機械学習のさまざまな分野に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-03-30T15:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。