論文の概要: Fast Differentiable Clipping-Aware Normalization and Rescaling
- arxiv url: http://arxiv.org/abs/2007.07677v1
- Date: Wed, 15 Jul 2020 13:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 04:51:08.956139
- Title: Fast Differentiable Clipping-Aware Normalization and Rescaling
- Title(参考訳): 微分可能なクリッピング対応正規化と再スケーリング
- Authors: Jonas Rauber, Matthias Bethge
- Abstract要約: 最適再スケーリングは高速かつ微分可能なアルゴリズムを用いて解析的に見つけることができることを示す。
我々のアルゴリズムは任意のp-ノルムに対して有効であり、摂動に正規化された入力でニューラルネットワークを訓練するのに使うことができる。
- 参考スコア(独自算出の注目度): 22.320256458354137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rescaling a vector $\vec{\delta} \in \mathbb{R}^n$ to a desired length is a
common operation in many areas such as data science and machine learning. When
the rescaled perturbation $\eta \vec{\delta}$ is added to a starting point
$\vec{x} \in D$ (where $D$ is the data domain, e.g. $D = [0, 1]^n$), the
resulting vector $\vec{v} = \vec{x} + \eta \vec{\delta}$ will in general not be
in $D$. To enforce that the perturbed vector $v$ is in $D$, the values of
$\vec{v}$ can be clipped to $D$. This subsequent element-wise clipping to the
data domain does however reduce the effective perturbation size and thus
interferes with the rescaling of $\vec{\delta}$. The optimal rescaling $\eta$
to obtain a perturbation with the desired norm after the clipping can be
iteratively approximated using a binary search. However, such an iterative
approach is slow and non-differentiable. Here we show that the optimal
rescaling can be found analytically using a fast and differentiable algorithm.
Our algorithm works for any p-norm and can be used to train neural networks on
inputs with normalized perturbations. We provide native implementations for
PyTorch, TensorFlow, JAX, and NumPy based on EagerPy.
- Abstract(参考訳): ベクトル $\vec{\delta} \in \mathbb{R}^n$ を所望の長さに再スケーリングすることは、データサイエンスや機械学習など、多くの分野で一般的な操作である。
再スケールされた摂動 $\eta \vec{\delta}$ が開始点 $\vec{x} \in D$ ($D$ はデータ領域、例えば $D = [0, 1]^n$) に追加されるとき、結果として得られるベクトル $\vec{v} = \vec{x} + \eta \vec{\delta}$ は一般に$D$に含まれない。
摂動ベクトル $v$ が $d$ であるようにするために、$\vec{v}$ の値は $d$ にクリップできる。
しかし、後続の要素単位でデータ領域へのクリッピングは、効果的な摂動サイズを減少させ、従って$\vec{\delta}$の再スケーリングを妨げる。
クリッピング後の所望のノルムによる摂動を得るための最適な再スケーリング$\eta$ は、二項探索を用いて反復的に近似することができる。
しかし、そのような反復的なアプローチは遅く、微分不可能である。
ここでは,高速かつ微分可能なアルゴリズムを用いて,最適再スケーリングが解析的に見出されることを示す。
このアルゴリズムは任意のpノルムで動作し、正規化摂動を持つ入力でニューラルネットワークを訓練するのに使うことができる。
eagerpyをベースにpytorch、tensorflow、jax、numpyのネイティブ実装を提供しています。
関連論文リスト
- Efficient $1$-bit tensor approximations [1.104960878651584]
我々のアルゴリズムは、20ドルの擬似符号で効率よく符号付きカット分解を行う。
オープンテキストMistral-7B-v0.1大言語モデルの重み行列を50%の空間圧縮に近似する。
論文 参考訳(メタデータ) (2024-10-02T17:56:32Z) - Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - Optimal Query Complexities for Dynamic Trace Estimation [59.032228008383484]
我々は,行列がゆっくりと変化している動的環境において,正確なトレース推定に必要な行列ベクトルクエリ数を最小化する問題を考える。
我々は、$delta$失敗確率で$epsilon$エラーまで、すべての$m$トレースを同時に推定する新しいバイナリツリー要約手順を提供する。
我々の下界(1)は、静的な設定においてもフロベニウスノルム誤差を持つ行列ベクトル積モデルにおけるハッチンソン推定子の第一の厳密な境界を与え、(2)動的トレース推定のための最初の無条件下界を与える。
論文 参考訳(メタデータ) (2022-09-30T04:15:44Z) - Low-Rank Approximation with $1/\epsilon^{1/3}$ Matrix-Vector Products [58.05771390012827]
我々は、任意のSchatten-$p$ノルムの下で、低ランク近似のためのクリロフ部分空間に基づく反復法について研究する。
我々の主な成果は、$tildeO(k/sqrtepsilon)$ matrix-vector productのみを使用するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-10T16:10:41Z) - Active Sampling for Linear Regression Beyond the $\ell_2$ Norm [70.49273459706546]
対象ベクトルの少数のエントリのみを問合せすることを目的とした線形回帰のためのアクティブサンプリングアルゴリズムについて検討する。
我々はこの$d$への依存が対数的要因まで最適であることを示す。
また、損失関数に対して最初の全感度上界$O(dmax1,p/2log2 n)$を提供し、最大で$p$成長する。
論文 参考訳(メタデータ) (2021-11-09T00:20:01Z) - Tractability from overparametrization: The example of the negative
perceptron [9.077560551700163]
我々は線形プログラミングアルゴリズムを解析し、対応するしきい値である$delta_textlin(kappa)$を特徴付ける。
閾値$delta_textlin(kappa)$間のギャップを観察し、他のアルゴリズムの振る舞いに関する疑問を提起する。
論文 参考訳(メタデータ) (2021-10-28T01:00:13Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - On Efficient Low Distortion Ultrametric Embedding [18.227854382422112]
データの基盤となる階層構造を保存するために広く用いられる方法は、データを木や超音波に埋め込む方法を見つけることである。
本稿では,$mathbbRd2(ユニバーサル定数$rho>1$)の点集合を入力として,超測度$Deltaを出力する新しいアルゴリズムを提案する。
我々のアルゴリズムの出力はリンクアルゴリズムの出力に匹敵するが、より高速な実行時間を実現する。
論文 参考訳(メタデータ) (2020-08-15T11:06:45Z) - The Average-Case Time Complexity of Certifying the Restricted Isometry
Property [66.65353643599899]
圧縮センシングにおいて、100万倍のN$センシング行列上の制限等尺性(RIP)はスパースベクトルの効率的な再構成を保証する。
Mtimes N$ matrices with i.d.$mathcalN(0,1/M)$ entry。
論文 参考訳(メタデータ) (2020-05-22T16:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。