論文の概要: Hybrid Least Squares/Gradient Descent Methods for DeepONets
- arxiv url: http://arxiv.org/abs/2508.15394v1
- Date: Thu, 21 Aug 2025 09:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.266533
- Title: Hybrid Least Squares/Gradient Descent Methods for DeepONets
- Title(参考訳): ディープオネット用ハイブリッド最小方形/勾配蛍光法
- Authors: Jun Choi, Chang-Ock Lee, Minam Moon,
- Abstract要約: DeepONetの出力は、分岐ネットワークの最後のパラメータに関して線形と見なすことができる。
本稿では,DeepONetの高速化に有効なハイブリッド最小/一方向降下法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose an efficient hybrid least squares/gradient descent method to accelerate DeepONet training. Since the output of DeepONet can be viewed as linear with respect to the last layer parameters of the branch network, these parameters can be optimized using a least squares (LS) solve, and the remaining hidden layer parameters are updated by means of gradient descent form. However, building the LS system for all possible combinations of branch and trunk inputs yields a prohibitively large linear problem that is infeasible to solve directly. To address this issue, our method decomposes the large LS system into two smaller, more manageable subproblems $\unicode{x2014}$ one for the branch network and one for the trunk network $\unicode{x2014}$ and solves them separately. This method is generalized to a broader type of $L^2$ loss with a regularization term for the last layer parameters, including the case of unsupervised learning with physics-informed loss.
- Abstract(参考訳): 我々は,DeepONetトレーニングを高速化するために,効率的なハイブリッド最小二乗/勾配降下法を提案する。
DeepONetの出力は分岐ネットワークの最終層パラメータに対して線形と見なすことができるため、これらのパラメータは最小二乗法(LS)を用いて最適化することができ、残りの隠蔽層パラメータは勾配降下形式によって更新される。
しかし、分岐入力とトランク入力の組合せを全て組み合わせたLSシステムを構築することは、直接解けない非常に大きな線形問題をもたらす。
この問題に対処するため,本手法では,大規模なLSシステムを,分岐ネットワーク用の$\unicode{x2014}$1とトランクネットワーク用の$\unicode{x2014}$の2つの小さなサブプロブレムに分解し,個別に解決する。
この方法は、物理インフォームド・ロスを用いた教師なし学習を含む最終層パラメータの正規化項を持つより広いタイプの$L^2$損失に一般化される。
関連論文リスト
- MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - Find A Winning Sign: Sign Is All We Need to Win the Lottery [52.63674911541416]
既存のIP手法によって訓練されたスパースネットワークは,パラメータ記号と正規化層パラメータが保存されている場合,アトラクションの基盤を保持することができることを示す。
本手法により訓練されたスパースネットワークと正規化層パラメータとの線形経路における高い誤差障壁を防止し, 正規化層パラメータへの依存を緩和する。
論文 参考訳(メタデータ) (2025-04-07T09:30:38Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Differentiating Through Integer Linear Programs with Quadratic Regularization and Davis-Yin Splitting [5.199570417938866]
問題となるのがリニアプログラム(ILP)である場合について検討する。
結果のスキームが最近導入されたヤコビ自由バックプロパゲーション(JFB)と互換性があることを証明する。
提案手法は, 最短経路問題とクナップサック問題という2つの代表的なICPに対する実験により, 前方パス上のこの組み合わせDYS, 後方パス上のJFBが, 既存のスキームよりも高次元問題に対してより効果的にスケールするスキームを示す。
論文 参考訳(メタデータ) (2023-01-31T04:03:28Z) - Direct Parameterization of Lipschitz-Bounded Deep Networks [3.883460584034766]
本稿では,深部ニューラルネットワーク(完全接続および畳み込みの両方)の新たなパラメータ化を提案する。
リプシッツ保証は半確定プログラム(SDP)による認証に基づく最も厳密な既知の境界と等価である
直接のパラメータ化、すなわち$mathbb RN$ から SDP ベースの境界を満たす重みの集合への滑らかな写像を提供する。
論文 参考訳(メタデータ) (2023-01-27T04:06:31Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias [34.81794649454105]
実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。
最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。
現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
論文 参考訳(メタデータ) (2021-10-26T17:57:57Z) - Self Sparse Generative Adversarial Networks [73.590634413751]
GAN(Generative Adversarial Networks)は、敵対的トレーニングを通じてデータ分布を学習する監視されていない生成モデルである。
本論文では,パラメータ空間を小さくし,ゼロ勾配問題を軽減するSelf Sparse Generative Adversarial Network (Self-Sparse GAN)を提案する。
論文 参考訳(メタデータ) (2021-01-26T04:49:12Z) - Global Convergence of Deep Networks with One Wide Layer Followed by
Pyramidal Topology [28.49901662584467]
深層ネットワークの場合、入力層に従えば1層$N$の幅が確保され、同様の保証が保証される。
残りの層は全て一定の幅を持つことができ、ピラミッドの位相を形成する。
論文 参考訳(メタデータ) (2020-02-18T20:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。