論文の概要: A lift for input-convex neural network training
- arxiv url: http://arxiv.org/abs/2605.24274v1
- Date: Fri, 22 May 2026 22:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.840182
- Title: A lift for input-convex neural network training
- Title(参考訳): 入力凸ニューラルネットワークトレーニングのためのリフト
- Authors: Ali Siahkoohi, Anirudh Thatipelli,
- Abstract要約: In Inputdimensional Neural Network (ICNN) は、対数凹密度推定、凸ポテンシャル正規化フロー、最適輸送、後部へのトランスポートマップインバージョンに使用される。
非負の円錐への標準射影勾配降下(PGD)は、硬く非滑らかな投影を施す。
微分可能な代替品であるソフト・プラス・リパラメトリゼーション (Softplus reparametrization) は、重量級数で指数関数的に勾配を減衰させ、層間重量損失を減少させる訓練を停止させる。
揚力はPGDと直接ソフトプラスよりも低い試験損失を示し,プラトーバウンドトレーニングを1つにする。
- 参考スコア(独自算出の注目度): 3.142113135607563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Input-convex neural networks (ICNNs) are widely used for log-concave density estimation, convex-potential normalizing flows, optimal transport, and transport-map inversion for high-dimensional Bayesian posteriors. These tasks share a structural constraint: the inter-layer weights of the ICNN must remain non-negative. The standard recipe, projected gradient descent (PGD) onto the non-negative cone, applies a hard, non-smooth projection -- the stiff-penalty limit of an ADMM-style constraint splitting -- and its classical convergence guarantees do not transfer to the non-smooth ICNN training landscape; the differentiable alternative, softplus reparametrization, attenuates the gradient exponentially in the weight magnitude, stalling training with dead inter-layer weights and plateaued loss. Inspired by parameter-extension lifts of PDE-constrained inverse problems, we propose the lift: instead of constraining the inter-layer weights directly, we train an unconstrained hypernetwork that emits them from a permutation-invariant summary of the input batch. This adds stochasticity to the training dynamics that softens the loss landscape, letting the iterates escape the gradient-attenuated region where direct softplus stalls. We trace this softening to three structural ingredients -- a learnable bias acting as slack, a hypernetwork body that conditions on the target batch, and a cross-covariance coupling the two through batch stochasticity -- and prove each one necessary: deleting any single ingredient collapses the cross-covariance that carries the softening. On log-concave energy-based modeling from one-dimensional toy targets to image-flavored latents, and convex-potential normalizing flows on a 21-dimensional tabular benchmark, we show that the lift reaches a lower test loss than both PGD and direct softplus, and turns a plateau-bounded training trajectory into a valley-descending one.
- Abstract(参考訳): 入力凸ニューラルネットワーク (ICNN) は, 対数凹密度推定, 凸ポテンシャル正規化流, 最適輸送, 高次元ベイズ後部へのトランスポートマップインバージョンに広く利用されている。
これらのタスクは構造的な制約を共有しており、ICNNの層間重みは非負でなければならない。
標準レシピである、非負の錐体への勾配降下(PGD)は、ハードで非滑らかな投射 -- ADMMスタイルの制約分割の厳格なペナルティ限界 -- を適用し、その古典的な収束保証は非滑らかなICNNトレーニングランドに転送されない。
PDE制約の逆問題に対するパラメータ拡張リフトにインスパイアされたこのリフトは、層間重みを直接拘束する代わりに、入力バッチの置換不変サマリからそれらを出力する非拘束ハイパーネットワークを訓練する。
これにより、損失の風景を和らげるトレーニングのダイナミクスに確率性が追加され、直接のソフトプラスが停止する勾配減衰した領域からイテレートが逃れる。
この軟化は、3つの構造成分(スラック(slack)として機能する学習可能なバイアス、ターゲットのバッチに条件を定めているハイパーネットワーク本体、バッチの確率性を通じてこれら2つを相互に結合するクロス共分散体)に遡る。
対数対数対数対数対数対数対数対数対のエネルギーに基づく1次元の玩具目標からイメージフレーバー付き潜水剤、および21次元の表紙ベンチマーク上での凸ポテンシャル正規化フローについて、リフトがPGDと直接ソフトプラスの両方よりも低い試験損失を達成し、プラトーバウンドのトレーニング軌道を谷外軌道に変換することを示した。
関連論文リスト
- Out-of-distribution transfer of PDE foundation models to material dynamics under extreme loading [86.6550968435969]
ほとんどのPDEファンデーションモデルは、流体中心のベンチマークに基づいて事前訓練され、微調整されている。
衝撃, 進化する界面, 破壊が非平滑な場を生み出す2つの不連続支配的体制について, 分布外移動をベンチマークする。
我々は,PDE基礎モデルであるPOSEIDONとMORPHを2つのオープンソースとして評価し,事前学習した重みからの微調整と,トレーニングセットのサイズによるスクラッチからのトレーニングを比較し,分散シフト下でのサンプル効率の定量化を行った。
論文 参考訳(メタデータ) (2026-03-04T18:19:35Z) - Data-Free PINNs for Compressible Flows: Mitigating Spectral Bias and Gradient Pathologies via Mach-Guided Scaling and Hybrid Convolutions [0.0]
本稿では,圧縮不能なインビシッドフローを解くことができる完全データフリーな物理情報ニューラルネットワーク(PINN)を提案する。
提案するフレームワークは,参照データなしで離弓衝撃を捕捉する。
論文 参考訳(メタデータ) (2026-03-01T09:04:18Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Dual-Balancing for Physics-Informed Neural Networks [5.8096456298528745]
偏微分方程式(PDE)を解くための新しい学習パラダイムとして、物理情報ニューラルネットワーク(PINN)が登場した。
PINNは、難解な多目的最適化の問題のため、精度が悪く、収束が遅い。
本稿では,バランシングとイントラバランシングを統合し,損失重みを動的に調整する新しいDual-Balanced PINN(DB-PINN)を提案する。
論文 参考訳(メタデータ) (2025-05-16T11:00:54Z) - Learning Discretized Neural Networks under Ricci Flow [48.47315844022283]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。