論文の概要: Hierarchical Zero-Order Optimization for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2602.10607v1
- Date: Wed, 11 Feb 2026 07:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.554763
- Title: Hierarchical Zero-Order Optimization for Deep Neural Networks
- Title(参考訳): ニューラルネットワークの階層的ゼロ次最適化
- Authors: Sansheng Cao, Zhengyu Ma, Yonghong Tian,
- Abstract要約: 本稿では,ネットワークの深さ次元を分解する新たな分割・対数戦略である階層零次最適化(HZO)を提案する。
我々はHZOがクエリの複雑さを$O(ML2)$から$O(ML log L)$に減らすことを証明した。
- 参考スコア(独自算出の注目度): 33.991611257471114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zeroth-order (ZO) optimization has long been favored for its biological plausibility and its capacity to handle non-differentiable objectives, yet its computational complexity has historically limited its application in deep neural networks. Challenging the conventional paradigm that gradients propagate layer-by-layer, we propose Hierarchical Zeroth-Order (HZO) optimization, a novel divide-and-conquer strategy that decomposes the depth dimension of the network. We prove that HZO reduces the query complexity from $O(ML^2)$ to $O(ML \log L)$ for a network of width $M$ and depth $L$, representing a significant leap over existing ZO methodologies. Furthermore, we provide a detailed error analysis showing that HZO maintains numerical stability by operating near the unitary limit ($L_{lip} \approx 1$). Extensive evaluations on CIFAR-10 and ImageNet demonstrate that HZO achieves competitive accuracy compared to backpropagation.
- Abstract(参考訳): ゼロオーダー(ZO)最適化は、生物学的な妥当性と、微分不可能な目的を扱う能力に長年好まれてきたが、その計算複雑性は歴史的にディープニューラルネットワークでの応用を制限してきた。
層間勾配を伝搬する従来のパラダイムに則って,ネットワークの深さ次元を分解する新たな分割・対数戦略である階層零次最適化(HZO)を提案する。
我々はHZOがクエリの複雑さを$O(ML^2)$から$O(ML \log L)$に減らすことを証明した。
さらに,HZOが単位極限(L_{lip} \approx 1$)付近で動作することにより数値安定性を維持することを示す詳細な誤差解析を行った。
CIFAR-10とImageNetの大規模な評価では、HZOはバックプロパゲーションに比べて競争精度が高いことが示されている。
関連論文リスト
- Lighter-X: An Efficient and Plug-and-play Strategy for Graph-based Recommendation through Decoupled Propagation [49.865020394064096]
我々は,既存のGNNベースのレコメンデータアーキテクチャとシームレスに統合可能な,効率的かつモジュール化されたフレームワークである textbfLighter-X を提案する。
提案手法は,基本モデルの理論的保証と経験的性能を保ちながら,パラメータサイズと計算複雑性を大幅に低減する。
実験の結果、Lighter-Xはパラメータが大幅に少ないベースラインモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-11T08:33:08Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - Local Loss Optimization in the Infinite Width: Stable Parameterization of Predictive Coding Networks and Target Propagation [8.35644084613785]
局所目標の2つの代表的設計に対して、無限幅極限における最大更新パラメータ化(mu$P)を導入する。
深層線形ネットワークを解析した結果,PCの勾配は1次勾配とガウス・ニュートン様勾配の間に介在していることが判明した。
我々は、特定の標準設定において、無限幅制限のPCは、一階勾配とよりよく似た振る舞いをすることを示した。
論文 参考訳(メタデータ) (2024-11-04T11:38:27Z) - Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis [16.893624100273108]
教師付き学習環境において,勾配降下を訓練した斜め隠れ重み行列を用いた繰り返しニューラルネットワークの解析を行った。
我々は,パラメータ化を伴わずに勾配降下が最適性を実現することを証明した。
この結果は、繰り返しニューラルネットワークによって近似および学習できる力学系のクラスを明示的に評価することに基づいている。
論文 参考訳(メタデータ) (2024-02-19T15:56:43Z) - Functional SDE approximation inspired by a deep operator network architecture [0.0]
ディープニューラルネットワークによる微分方程式(SDE)の近似解の導出と解析を行う。
このアーキテクチャはDeep Operator Networks(DeepONets)の概念にインスパイアされたもので、ネットワークに表される基盤の削減という観点からの演算子学習に基づいている。
提案したSDEONetアーキテクチャは,Wienerカオス拡張の最適スパース切り込みを学習することにより,指数複雑性の問題を緩和することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T14:12:35Z) - Sample Complexity of Neural Policy Mirror Descent for Policy
Optimization on Low-Dimensional Manifolds [75.51968172401394]
深部畳み込みニューラルネットワーク(CNN)を用いたNPMDアルゴリズムのサンプル複雑性について検討した。
NPMDの各イテレーションでは、値関数とポリシーの両方をCNNによってうまく近似することができる。
NPMDは状態空間の低次元構造を利用して次元の呪いから逃れることができることを示す。
論文 参考訳(メタデータ) (2023-09-25T07:31:22Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Scalable Lipschitz Residual Networks with Convex Potential Flows [120.27516256281359]
残差ネットワーク勾配流における凸ポテンシャルを用いることで,1ドルのLipschitz変換が組み込まれていることを示す。
CIFAR-10の包括的な実験は、アーキテクチャのスケーラビリティと、証明可能な防御に$ell$のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2021-10-25T07:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。