論文の概要: Training Non-Differentiable Networks via Optimal Transport
- arxiv url: http://arxiv.org/abs/2605.01928v1
- Date: Sun, 03 May 2026 15:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.998585
- Title: Training Non-Differentiable Networks via Optimal Transport
- Title(参考訳): 最適輸送による識別不能ネットワークの訓練
- Authors: An T. Le,
- Abstract要約: PolyStepは、フォワードパスのみを使用してパラメータを更新する、勾配のないメソッドである。
我々は、既存の勾配のない手法がほぼランダムな精度で崩壊する真に微分不可能なモデルを訓練する。
ハードLIFスパイクネットワークでは、93.4%の精度に達し、全ての勾配のないベースラインを60pp以上上回り、サロゲート勾配のアダム天井の4.4pp以内に閉じる。
- 参考スコア(独自算出の注目度): 1.5229257192293202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks increasingly embed non-differentiable components (spiking neurons, quantized layers, discrete routing, blackbox simulators, etc.) where backpropagation is inapplicable and surrogate gradients introduce bias. We present PolyStep, a gradient-free optimizer that updates parameters using only forward passes. Each step evaluates the loss at structured polytope vertices in a compressed subspace, computes softmax-weighted assignments over the resulting cost matrix, and displaces particles toward low-cost vertices via barycentric projection. This update corresponds to the one-sided limit of a regularized optimal-transport problem, inheriting its geometric structure without Sinkhorn iterations. PolyStep trains genuinely non-differentiable models where existing gradient-free methods collapse to near-random accuracy. On hard-LIF spiking networks we reach 93.4% test accuracy, outperforming all gradient-free baselines by over 60~pp and closing to within 4.4~pp of a surrogate-gradient Adam ceiling. Across four additional non-differentiable architectures (int8 quantization, argmax attention, staircase activations, hard MoE routing) we lead every gradient-free competitor. On MAX-SAT scaling from 100 to 1M variables, we sustain above 92% clause satisfaction while evolution strategies drop 8--12~pp. On RL policy search, we match OpenAI-ES on classical control and retain performance under integer and binary quantization that collapses gradient-based methods. We prove convergence to conservative-stationary points at rate $O(\log T/\sqrt{T})$ on piecewise-smooth losses, upgraded to Clarke-stationary on the headline architectures and extended to the piecewise-constant regime via a hitting-time bound. These rates match the known zeroth-order query-complexity lower bounds that all forward-only methods inherit. Code is available at https://github.com/anindex/polystep.
- Abstract(参考訳): ニューラルネットワークは、バックプロパゲーションが適用不可能でサロゲート勾配がバイアスをもたらす非微分可能なコンポーネント(スポーキングニューロン、量子化層、離散ルーティング、ブラックボックスシミュレータなど)を徐々に埋め込む。
フォワードパスのみを使用してパラメータを更新する、勾配のない最適化器であるPolyStepを提案する。
各ステップは、圧縮された部分空間における構造化ポリトープ頂点の損失を評価し、その結果のコスト行列上のソフトマックス重み付けの割り当てを計算し、バリ中心射影によって粒子を低コストの頂点に置き換える。
この更新は、正規化された最適輸送問題の一方の極限に対応し、シンクホーンの反復を伴わない幾何学的構造を継承する。
PolyStepは、既存の勾配のない手法がほぼランダムな精度で崩壊する、真の非微分不可能なモデルである。
ハードLIFスパイクネットワークでは、テスト精度93.4%に達し、勾配のないベースラインを60〜pp以上上回り、サロゲート勾配のアダム天井の4.4〜pp以内に閉じる。
さらに4つの非微分可能なアーキテクチャ(int8量子化、argmaxアテンション、階段アクティベーション、ハードMoEルーティング)が、すべてのグレードフリー競合をリードしています。
100~100万変数のMAX-SATスケーリングでは, 進化戦略が8~12~ppに低下するのに対して, 92%以上の条件満足度を維持している。
RLポリシー探索では、古典的な制御においてOpenAI-ESと一致し、勾配法を崩壊させる整数量子化とバイナリ量子化の下で性能を維持する。
我々は、一点当たりの損失に対して、$O(\log T/\sqrt{T})$で保守的定常点への収束を証明し、ヘッドラインアーキテクチャ上でクラーク・静止点にアップグレードし、ヒットタイム境界を通じてピースワイズ・コンスタントな状態へ拡張する。
これらのレートは、すべてのフォワードオンリーメソッドが継承する既知のゼロ階クエリ-複雑性の低いバウンダリと一致します。
コードはhttps://github.com/anindex/polystep.comから入手できる。
関連論文リスト
- PolyGLU: State-Conditional Activation Routing in Transformer Feed-Forward Networks [0.0]
我々は、各FFNニューロンがK=4の活性化関数を動的にルーティングすることを可能にする、SwiGLUのドロップイン置換であるPolyGLUを紹介する。
標準的なベンチマークでは、PlychromaticLMは3,600倍のトークンのトレーニングにもかかわらず、Qwen3-0.6B-Baseのパフォーマンスの62-89%を達成した。
論文 参考訳(メタデータ) (2026-03-07T10:39:56Z) - Layer-wise QUBO-Based Training of CNN Classifiers for Quantum Annealing [0.0]
本稿では,畳み込みニューラルネットワーク(CNN)の頭部を学習するための,擬似Un Binary Optimization(QUBO)に基づく反復的フレームワークを提案する。
出力毎の分解は、$C$クラス問題を$C$独立QUBOに分割し、それぞれ$(d+1)K$バイナリ変数で、$d$が特徴次元、$K$がビット精度で分割する。
我々は,6つの画像分類ベンチマーク(スコーンディジット,MNIST,Fashion-MNIST,CIFAR-10,EMNIST,KMNIST)の評価を行った。
論文 参考訳(メタデータ) (2026-03-03T13:10:36Z) - Closed-Form Last Layer Optimization [72.49151473937319]
正方形損失の下では、線形最終層重みに対する最適解は閉形式で知られている。
これは、バックボーン上の勾配降下ステップと最終層上のクローズドフォーム更新の交互に行われることを示す。
論文 参考訳(メタデータ) (2025-10-06T09:14:39Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - Orthogonalizing Convolutional Layers with the Cayley Transform [83.73855414030646]
直交に制約された畳み込み層をパラメータ化するための代替手法を提案し,評価する。
本手法は,大規模畳み込みにおいても直交性が高次に保たれることを示す。
論文 参考訳(メタデータ) (2021-04-14T23:54:55Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。