論文の概要: Fast, Differentiable and Sparse Top-k: a Convex Analysis Perspective
- arxiv url: http://arxiv.org/abs/2302.01425v3
- Date: Sun, 4 Jun 2023 07:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 03:04:45.838760
- Title: Fast, Differentiable and Sparse Top-k: a Convex Analysis Perspective
- Title(参考訳): 高速・微分可能・スパーストップ-k:凸解析の観点から
- Authors: Michael E. Sander, Joan Puigcerver, Josip Djolonga, Gabriel Peyr\'e
and Mathieu Blondel
- Abstract要約: トップk演算子はスパースベクトルを返し、非ゼロ値は入力の k 最大の値に対応する。
我々はトップk作用素を、置換の凸包であるペルムタヘドロン上の線形プログラムとみなす。
私たちのフレームワークは既存のフレームワークよりもはるかに汎用的であり、例えば、大まかに値を選択するトップk演算子を表現できる。
- 参考スコア(独自算出の注目度): 21.6146047576295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The top-k operator returns a sparse vector, where the non-zero values
correspond to the k largest values of the input. Unfortunately, because it is a
discontinuous function, it is difficult to incorporate in neural networks
trained end-to-end with backpropagation. Recent works have considered
differentiable relaxations, based either on regularization or perturbation
techniques. However, to date, no approach is fully differentiable and sparse.
In this paper, we propose new differentiable and sparse top-k operators. We
view the top-k operator as a linear program over the permutahedron, the convex
hull of permutations. We then introduce a p-norm regularization term to smooth
out the operator, and show that its computation can be reduced to isotonic
optimization. Our framework is significantly more general than the existing one
and allows for example to express top-k operators that select values in
magnitude. On the algorithmic side, in addition to pool adjacent violator (PAV)
algorithms, we propose a new GPU/TPU-friendly Dykstra algorithm to solve
isotonic optimization problems. We successfully use our operators to prune
weights in neural networks, to fine-tune vision transformers, and as a router
in sparse mixture of experts.
- Abstract(参考訳): トップk演算子はスパースベクトルを返し、非ゼロ値は入力の k 最大の値に対応する。
残念ながら、不連続関数であるため、トレーニングされたエンドツーエンドとバックプロパゲーションを組み込むのは難しい。
近年の研究では、正規化または摂動法に基づく微分可能な緩和が検討されている。
しかし、これまでのところ、完全に微分可能でスパースなアプローチは存在しません。
本稿では,新しい微分可能かつスパースなトップk演算子を提案する。
我々はtop-k作用素を、置換の凸包であるペルムタヘドロン上の線型プログラムと考える。
次に、演算子を滑らかにするためにpノルム正規化項を導入し、その計算を等張最適化に還元できることを示す。
我々のフレームワークは既存のフレームワークよりもはるかに一般的であり、例えば、大小の値を選択するトップk演算子を表現できる。
アルゴリズム側では, 隣り合うビオレータ(pav)アルゴリズムのプールに加えて, 等張最適化問題を解決するための新しいgpu/tpuフレンドリーなdykstraアルゴリズムを提案する。
私たちは、ニューラルネットワークの重み付け、微調整の視覚変換器、そして未熟な専門家のルーターとして、オペレーターをうまく利用しました。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - On Model Compression for Neural Networks: Framework, Algorithm, and
Convergence Guarantee [10.783153208561469]
本稿では,低ランク近似と重み近似の2つのモデル圧縮手法に焦点を当てた。
本稿では,非最適化の新たな視点から,モデル圧縮のための全体論的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T02:14:42Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - A Unified Framework for Implicit Sinkhorn Differentiation [58.56866763433335]
暗黙の微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。
特にGPUメモリなどのリソースが不足している場合には,計算効率が向上する。
論文 参考訳(メタデータ) (2022-05-13T14:45:31Z) - Alternating Mahalanobis Distance Minimization for Stable and Accurate CP
Decomposition [4.847980206213335]
本稿では, テンソルの特異値とベクトルを導出するための新しい定式化を導入する。
このアルゴリズムのサブスウィープは、既知のランクの正確なCPDに対して超線形収束率を達成することができることを示す。
すると、アルゴリズムは各因子に対するマハラノビス距離を最適化するものであり、基底距離は他の因子に依存していると見なす。
論文 参考訳(メタデータ) (2022-04-14T19:56:36Z) - Divide and Learn: A Divide and Conquer Approach for Predict+Optimize [50.03608569227359]
予測+最適化問題は、予測係数を使用する最適化プロブレムと、確率係数の機械学習を組み合わせる。
本稿では, 予測係数を1次線形関数として, 最適化問題の損失を直接表現する方法を示す。
本稿では,この制約を伴わずに最適化問題に対処し,最適化損失を用いてその係数を予測する新しい分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-04T00:26:56Z) - Deep neural networks for inverse problems with pseudodifferential
operators: an application to limited-angle tomography [0.4110409960377149]
線形逆問題において擬微分演算子(Psi$DOs)を学習するための新しい畳み込みニューラルネットワーク(CNN)を提案する。
フォワード演算子のより一般的な仮定の下では、ISTAの展開された反復はCNNの逐次的な層として解釈できることを示す。
特に、LA-CTの場合、アップスケーリング、ダウンスケーリング、畳み込みの操作は、制限角X線変換の畳み込み特性とウェーブレット系を定義する基本特性を組み合わせることで正確に決定できることを示す。
論文 参考訳(メタデータ) (2020-06-02T14:03:41Z) - Differentiable Top-k Operator with Optimal Transport [135.36099648554054]
SOFTトップk演算子は、エントロピック最適輸送(EOT)問題の解として、トップk演算の出力を近似する。
提案した演算子をk-アネレスト近傍およびビーム探索アルゴリズムに適用し,性能向上を示す。
論文 参考訳(メタデータ) (2020-02-16T04:57:52Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。