Fugu-MT 論文翻訳(概要): Exploiting Subgradient Sparsity in Max-Plus Neural Networks

論文の概要: Exploiting Subgradient Sparsity in Max-Plus Neural Networks

arxiv url: http://arxiv.org/abs/2603.04133v1
Date: Wed, 04 Mar 2026 14:46:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.356749
Title: Exploiting Subgradient Sparsity in Max-Plus Neural Networks
Title（参考訳）: Max-Plus ニューラルネットにおける潜時空間の爆発
Authors: Ikhlas Enaieh, Olivier Fercoq,
Abstract要約: 我々は、古典的な加算と乗算をそれぞれ最大演算と和演算に置き換える新しいMax-Plusニューラルアーキテクチャを用いている。標準のバックプロパゲーションはこの空白を悪用せず、不要な計算に繋がる。本稿では,代数的疎度を明示的に活用するスパース劣等化アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 1.7045044665125362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Neural Networks are powerful tools for solving machine learning problems, but their training often involves dense and costly parameter updates. In this work, we use a novel Max-Plus neural architecture in which classical addition and multiplication are replaced with maximum and summation operations respectively. This is a promising architecture in terms of interpretability, but its training is challenging. A particular feature is that this algebraic structure naturally induces sparsity in the subgradients, as only neurons that contribute to the maximum affect the loss. However, standard backpropagation fails to exploit this sparsity, leading to unnecessary computations. In this work, we focus on the minimization of the worst sample loss which transfers this sparsity to the optimization loss. To address this, we propose a sparse subgradient algorithm that explicitly exploits the algebraic sparsity. By tailoring the optimization procedure to the non-smooth nature of Max-Plus models, our method achieves more efficient updates while retaining theoretical guarantees. This highlights a principled path toward bridging algebraic structure and scalable learning.
Abstract（参考訳）: Deep Neural Networksは、機械学習問題を解決する強力なツールだが、そのトレーニングには、高密度で高価なパラメータ更新が伴うことが多い。本研究では、古典的な加算と乗算をそれぞれ最大演算と和演算に置き換える、新しいMax-Plusニューラルアーキテクチャを用いる。これは解釈可能性という点では有望なアーキテクチャだが、そのトレーニングは難しい。この代数構造は、最大値に寄与するニューロンだけが損失に影響を及ぼすため、下位段階において自然にスパーシリティを誘導する。しかし、標準的なバックプロパゲーションは、この空間をうまく利用することができず、不要な計算に繋がる。本研究は、この空間を最適化損失に転送する最悪のサンプル損失の最小化に焦点を当てる。この問題に対処するために,代数的疎度を明示的に活用するスパース劣等アルゴリズムを提案する。最適化手順をMax-Plusモデルの非滑らかな性質に合わせることで、理論的保証を維持しながらより効率的な更新を実現する。このことは、代数的構造とスケーラブルな学習を橋渡しする原則的な道のりを浮き彫りにする。

関連論文リスト

BLUR: A Bi-Level Optimization Approach for LLM Unlearning [100.90394814817965]
未学習問題の階層構造をモデル化することが重要であると論じる。本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文参考訳（メタデータ） (2025-06-09T19:23:05Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Newton Losses: Using Curvature Information for Learning with Differentiable Algorithms [80.37846867546517]
カスタム目的の8つの異なるニューラルネットワークのトレーニング方法を示す。我々はその2次情報を経験的フィッシャー行列を通して活用する。ロスロスロスシブルアルゴリズムを用いて、少ない微分可能アルゴリズムに対する大幅な改善を実現する。
論文参考訳（メタデータ） (2024-10-24T18:02:11Z)
Gradient-free neural topology optimization [0.0]
勾配のないアルゴリズムは勾配に基づくアルゴリズムと比較して多くの繰り返しを収束させる必要がある。これにより、反復1回あたりの計算コストとこれらの問題の高次元性のため、トポロジ最適化では実現不可能となった。我々は,潜時空間における設計を最適化する場合に,少なくとも1桁の繰り返し回数の減少につながる事前学習型ニューラルリパラメータ化戦略を提案する。
論文参考訳（メタデータ） (2024-03-07T23:00:49Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Regularization-based Pruning of Irrelevant Weights in Deep Neural Architectures [0.0]
本稿では,無関係な重みを識別し,そのノルムを選択的に縮小する正規化手法を用いて,スパース神経トポロジを学習する手法を提案する。提案手法を画像分類と自然言語生成のタスクで検証し,スパーシティとメトリクスの両面から比較結果を得た。
論文参考訳（メタデータ） (2022-04-11T09:44:16Z)
GradMax: Growing Neural Networks using Gradient Information [22.986063120002353]
本稿では,学習中に学習内容に影響を与えることなく新たなニューロンを付加し,トレーニングのダイナミクスを改良する手法を提案する。この手法をGradMax(GradMax)と呼び、様々な視覚タスクやアーキテクチャにおいてその効果を実証する。
論文参考訳（メタデータ） (2022-01-13T18:30:18Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
SHINE: SHaring the INverse Estimate from the forward pass for bi-level optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文参考訳（メタデータ） (2021-06-01T15:07:34Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。