論文の概要: Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling?
- arxiv url: http://arxiv.org/abs/2105.02498v1
- Date: Thu, 6 May 2021 08:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 21:48:03.661877
- Title: Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling?
- Title(参考訳): 大域的共分散プールにおける正方形根の正確なSVD性能
- Authors: Yue Song, Nicu Sebe, Wei Wang
- Abstract要約: 本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 59.820507600960745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Global covariance pooling (GCP) aims at exploiting the second-order
statistics of the convolutional feature. Its effectiveness has been
demonstrated in boosting the classification performance of Convolutional Neural
Networks (CNNs). Singular Value Decomposition (SVD) is used in GCP to compute
the matrix square root. However, the approximate matrix square root calculated
using Newton-Schulz iteration \cite{li2018towards} outperforms the accurate one
computed via SVD \cite{li2017second}. We empirically analyze the reason behind
the performance gap from the perspectives of data precision and gradient
smoothness. Various remedies for computing smooth SVD gradients are
investigated. Based on our observation and analyses, a hybrid training protocol
is proposed for SVD-based GCP meta-layers such that competitive performances
can be achieved against Newton-Schulz iteration. Moreover, we propose a new GCP
meta-layer that uses SVD in the forward pass, and Pad\'e Approximants in the
backward propagation to compute the gradients. The proposed meta-layer has been
integrated into different CNN models and achieves state-of-the-art performances
on both large-scale and fine-grained datasets.
- Abstract(参考訳): global covariance pooling (gcp) は畳み込み機能の2次統計を活用することを目的としている。
その効果は畳み込みニューラルネットワーク(cnns)の分類性能の向上に証明されている。
Singular Value Decomposition (SVD) は、GCPで行列平方根を計算するために使われる。
しかし、Newton-Schulz iteration \cite{li2018towards} を用いて計算された近似行列平方根は、SVD \cite{li2017second} によって計算された正確なルートよりも優れている。
データ精度と勾配の滑らかさの観点から,性能差の原因を実験的に分析した。
SVD勾配のスムーズな計算法について検討した。
そこで本研究では,SVDをベースとしたGCPメタ層に対して,Newton-Schulzイテレーションに対する競合性能を実現するためのハイブリッドトレーニングプロトコルを提案する。
さらに,前方通過におけるSVDと後方伝播におけるPad\'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
関連論文リスト
- Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - From Spectral Graph Convolutions to Large Scale Graph Convolutional
Networks [0.0]
グラフ畳み込みネットワーク(GCN)は、様々なタスクにうまく適用された強力な概念であることが示されている。
古典グラフ理論の関連部分を含むGCNの定義への道を開いた理論を考察する。
論文 参考訳(メタデータ) (2022-07-12T16:57:08Z) - Alternating Mahalanobis Distance Minimization for Stable and Accurate CP
Decomposition [4.847980206213335]
本稿では, テンソルの特異値とベクトルを導出するための新しい定式化を導入する。
このアルゴリズムのサブスウィープは、既知のランクの正確なCPDに対して超線形収束率を達成することができることを示す。
すると、アルゴリズムは各因子に対するマハラノビス距離を最適化するものであり、基底距離は他の因子に依存していると見なす。
論文 参考訳(メタデータ) (2022-04-14T19:56:36Z) - Implicit SVD for Graph Representation Learning [33.761179632722]
控えめなハードウェアを持つ人には、グラフ表現学習をより計算的に学習しやすいものにします。
我々はSOTAモデルの線形近似を導出し、入出力を計算せずに$mathbfM$のSVDを介して閉形式でモデルを訓練する。
我々のモデルは、様々なグラフ上での競合実証試験性能を示す。
論文 参考訳(メタデータ) (2021-11-11T16:58:17Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。