Fugu-MT 論文翻訳(概要): Weight Conditioning for Smooth Optimization of Neural Networks

論文の概要: Weight Conditioning for Smooth Optimization of Neural Networks

arxiv url: http://arxiv.org/abs/2409.03424v1
Date: Thu, 5 Sep 2024 11:10:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 21:00:20.724192
Title: Weight Conditioning for Smooth Optimization of Neural Networks
Title（参考訳）: ニューラルネットワークの平滑最適化のためのウェイトコンディショニング
Authors: Hemanth Saratchandran, Thomas X. Wang, Simon Lucey,
Abstract要約: 本稿では,ニューラルネットワークの重み行列に対する新しい正規化手法を提案する。このアプローチは、ウェイト行列の最小値と最大の特異値の間のギャップを狭くすることを目的としており、より良い条件付き行列をもたらす。以上の結果から,本手法は競争力だけでなく,文献の既往の重み正規化手法よりも優れていたことが示唆された。
参考スコア（独自算出の注目度）: 28.243353447978837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this article, we introduce a novel normalization technique for neural network weight matrices, which we term weight conditioning. This approach aims to narrow the gap between the smallest and largest singular values of the weight matrices, resulting in better-conditioned matrices. The inspiration for this technique partially derives from numerical linear algebra, where well-conditioned matrices are known to facilitate stronger convergence results for iterative solvers. We provide a theoretical foundation demonstrating that our normalization technique smoothens the loss landscape, thereby enhancing convergence of stochastic gradient descent algorithms. Empirically, we validate our normalization across various neural network architectures, including Convolutional Neural Networks (CNNs), Vision Transformers (ViT), Neural Radiance Fields (NeRF), and 3D shape modeling. Our findings indicate that our normalization method is not only competitive but also outperforms existing weight normalization techniques from the literature.
Abstract（参考訳）: 本稿では,ニューラルネットワークの重み行列の新しい正規化手法について紹介する。このアプローチは、ウェイト行列の最小値と最大の特異値の間のギャップを狭くすることを目的としており、より良い条件付き行列をもたらす。この手法のインスピレーションは、よく条件付けられた行列がイテレーティブな解法に対するより強い収束結果を促進することが知られている数値線型代数から部分的に導かれる。我々は,正規化手法が損失景観を円滑にし,確率勾配降下アルゴリズムの収束性を高めることを実証する理論的基礎を提供する。経験的に、畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)、ニューラルレージアンスフィールド(NeRF)、三次元形状モデリングなど、さまざまなニューラルネットワークアーキテクチャにおける正規化を検証する。以上の結果から,本手法は競争力だけでなく,文献の既往の重み正規化手法よりも優れていたことが示唆された。

関連論文リスト

ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。 ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文参考訳（メタデータ） (2026-02-07T10:19:36Z)
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文参考訳（メタデータ） (2025-11-30T16:17:34Z)
Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文参考訳（メタデータ） (2025-06-16T06:54:08Z)
Accelerating Natural Gradient Descent for PINNs with Randomized Numerical Linear Algebra [0.0]
Natural Gradient Descent (NGD)は、ニューラルネットワークに基づく偏微分方程式(PDE)の学習のための有望な最適化アルゴリズムとして登場した。我々は,行列フリーNGDを従来考えられていたよりも幅広い問題のクラスに拡張し,内部CGソルバの収束を加速するためにランダム化Nystr"omプレコンディショニング(Randomized Nystr)の利用を提案する。このアルゴリズムは、ニューラルネットワークを用いて識別された様々なPDE問題に対して、既存のNGDベースの手法よりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2025-05-16T19:00:40Z)
Optimization and Generalization Guarantees for Weight Normalization [19.965963460750206]
我々は、Deep WeightNormモデルの最適化と一般化の双方について、最初の理論的特徴付けを提供する。本稿では,WeightNormネットワークのトレーニングに正規化項などの理論的関心が関係していることを示す実験結果を示す。
論文参考訳（メタデータ） (2024-09-13T15:55:05Z)
Adaptive Error-Bounded Hierarchical Matrices for Efficient Neural Network Compression [0.0]
本稿では,物理インフォームドニューラルネットワーク(PINN)に適した動的,エラーバウンドな階層行列 (H-matrix) 圧縮手法を提案する。提案手法は,ニューラル・タンジェント・カーネル(NTK)の本質的性質を保ちながら,大規模物理モデルにおける計算複雑性とメモリ要求を低減させる。実験により, この手法は, 高精度を維持し, 一般化能力を向上させることにより, Singular Value Decomposition (SVD) やプルーニング, 量子化などの従来の圧縮手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-09-11T05:55:51Z)
Matrix Completion via Nonsmooth Regularization of Fully Connected Neural Networks [7.349727826230864]
ディープニューラルネットワークのような非線形推定器を使うことで、性能の向上が達成できることが示されている。本稿では,標準中間表現の観点から,FCNNモデルの正規化によるオーバーフィット制御を行う。本シミュレーションは,既存の線形および非線形アルゴリズムと比較して,提案アルゴリズムの優位性を示す。
論文参考訳（メタデータ） (2024-03-15T12:00:37Z)
The Convex Landscape of Neural Networks: Characterizing Global Optima and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。本稿では,凸型神経回復モデルについて検討する。定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文参考訳（メタデータ） (2023-12-19T23:04:56Z)
Convergence Analysis for Learning Orthonormal Deep Linear Neural Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文参考訳（メタデータ） (2023-11-24T18:46:54Z)
Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文参考訳（メタデータ） (2023-05-25T15:32:21Z)
Graph Polynomial Convolution Models for Node Classification of Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文参考訳（メタデータ） (2022-09-12T04:46:55Z)
Equivariant neural networks for recovery of Hadamard matrices [0.7742297876120561]
本稿では,行列の列と行の置換に同値であるように設計されたメッセージパッシングニューラルネットワークアーキテクチャを提案する。マルチレイヤパーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、さらにはトランスフォーマーといった従来のアーキテクチャに対する利点を説明している。
論文参考訳（メタデータ） (2022-01-31T12:07:07Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)
Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文参考訳（メタデータ） (2020-04-02T10:14:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。