論文の概要: Deep Learning Meets Projective Clustering
- arxiv url: http://arxiv.org/abs/2010.04290v1
- Date: Thu, 8 Oct 2020 22:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:42:15.583869
- Title: Deep Learning Meets Projective Clustering
- Title(参考訳): Deep LearningがProjective Clusteringを発表
- Authors: Alaa Maalouf and Harry Lang and Daniela Rus and Dan Feldman
- Abstract要約: NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
- 参考スコア(独自算出の注目度): 66.726500395069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common approach for compressing NLP networks is to encode the embedding
layer as a matrix $A\in\mathbb{R}^{n\times d}$, compute its rank-$j$
approximation $A_j$ via SVD, and then factor $A_j$ into a pair of matrices that
correspond to smaller fully-connected layers to replace the original embedding
layer. Geometrically, the rows of $A$ represent points in $\mathbb{R}^d$, and
the rows of $A_j$ represent their projections onto the $j$-dimensional subspace
that minimizes the sum of squared distances ("errors") to the points. In
practice, these rows of $A$ may be spread around $k>1$ subspaces, so factoring
$A$ based on a single subspace may lead to large errors that turn into large
drops in accuracy.
Inspired by \emph{projective clustering} from computational geometry, we
suggest replacing this subspace by a set of $k$ subspaces, each of dimension
$j$, that minimizes the sum of squared distances over every point (row in $A$)
to its \emph{closest} subspace. Based on this approach, we provide a novel
architecture that replaces the original embedding layer by a set of $k$ small
layers that operate in parallel and are then recombined with a single
fully-connected layer.
Extensive experimental results on the GLUE benchmark yield networks that are
both more accurate and smaller compared to the standard matrix factorization
(SVD). For example, we further compress DistilBERT by reducing the size of the
embedding layer by $40\%$ while incurring only a $0.5\%$ average drop in
accuracy over all nine GLUE tasks, compared to a $2.8\%$ drop using the
existing SVD approach. On RoBERTa we achieve $43\%$ compression of the
embedding layer with less than a $0.8\%$ average drop in accuracy as compared
to a $3\%$ drop previously. Open code for reproducing and extending our results
is provided.
- Abstract(参考訳): nlpネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $a\in\mathbb{r}^{n\times d}$ としてエンコードし、そのランク-$j$近似 $a_j$ をsvdで計算し、係数 $a_j$ を元の埋め込み層を置き換える小さな完全連結層に対応する一対の行列に分解する。
幾何学的には、$A$の行は$\mathbb{R}^d$の点を表し、$A_j$の行は、点への平方距離(エラー)の和を最小化する$j$次元部分空間への射影を表す。
実際には、$A$の行は$k>1$のサブスペースに分散する可能性があるため、単一のサブスペースに基づいて$A$をファクタすると大きなエラーが発生し、精度が大幅に低下する可能性がある。
計算幾何学から \emph{projective clustering} に着想を得て、この部分空間を$k$部分空間の集合、それぞれ$j$で置き換えることを提案し、これはすべての点 ($A$) 上の平方距離の和をその \emph{closest} 部分空間に最小化する。
このアプローチに基づいて、我々は、元の埋め込み層を、並列に動作し、1つの完全接続層と再結合される1セットの$k$の小さな層に置き換える、新しいアーキテクチャを提供する。
標準行列因数分解(SVD)よりも精度が高く小さいGLUEベンチマーク収率ネットワークの大規模な実験結果が得られた。
例えば、組込み層のサイズを$40\%$に減らしながら、既存のsvdアプローチによる$.8\%$ドロップと比較して、9つのグルータスク全体の平均精度が$0.5\%$であるようにすることで、ディチルベルトをさらに圧縮します。
robertaでは、従来の$0.8%$のドロップに比べて、平均的な精度の低下で、埋め込み層の圧縮を4,3\%$で達成しています。
結果を再現し拡張するためのオープンコードが提供される。
関連論文リスト
- Optimal Oblivious Subspace Embeddings with Near-optimal Sparsity [3.9657575162895196]
曖昧な部分空間の埋め込みは、ランダムな$mtimes n$ matrix $Pi$で、その部分空間内のすべてのベクトルのノルムを1pmepsilon$ factorで保存する。
最適次元が $m=Theta(d/epsilon2)$ で、最適間隔が $tilde O (1/epsilon)$ のとき、非零エントリは $Pi$ である。
論文 参考訳(メタデータ) (2024-11-13T16:58:51Z) - Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。
これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。
また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文 参考訳(メタデータ) (2024-08-16T02:33:07Z) - Multilayer Correlation Clustering [12.492037397168579]
相関クラスタリング(Bansal et al., FOCS '02)の新たな一般化である多層相関クラスタリングを確立する。
本稿では、共通集合である$V$に対して相関クラスタリング(層と呼ばれる)の一連の入力を与えられる。
目的は、不一致ベクトルの$ell_p$-norm(pgeq 1$)を最小化する$V$のクラスタリングを見つけることである。
論文 参考訳(メタデータ) (2024-04-25T15:25:30Z) - Robust Zero Level-Set Extraction from Unsigned Distance Fields Based on
Double Covering [28.268387694075415]
非符号距離場(UDF)からゼロレベルセットを抽出する新しい手法を提案する。
DoubleCoverUDFは学習したUDFとユーザが指定したパラメータ $r$ を入力として取ります。
計算されたアイソ曲面は、対象ゼロレベルセット$S$の$r$オフセット体積の境界であることを示す。
論文 参考訳(メタデータ) (2023-10-05T10:17:30Z) - Active Sampling for Linear Regression Beyond the $\ell_2$ Norm [70.49273459706546]
対象ベクトルの少数のエントリのみを問合せすることを目的とした線形回帰のためのアクティブサンプリングアルゴリズムについて検討する。
我々はこの$d$への依存が対数的要因まで最適であることを示す。
また、損失関数に対して最初の全感度上界$O(dmax1,p/2log2 n)$を提供し、最大で$p$成長する。
論文 参考訳(メタデータ) (2021-11-09T00:20:01Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z) - Small Covers for Near-Zero Sets of Polynomials and Learning Latent
Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。
構造的結果に基づいて,いくつかの基本的高次元確率モデル隠れ変数の学習アルゴリズムを改良した。
論文 参考訳(メタデータ) (2020-12-14T18:14:08Z) - Farthest sampling segmentation of triangulated surfaces [0.0]
Farthest Sampling (FSS) は三角形曲面の分割法である。
FSS法は手動で調整しなければならないパラメータに依存しず、非常に柔軟である。
いくつかの測定値と多種多様な3次元三角形メッシュによる数値実験により、W$の10%未満の計算で得られたセグメンテーションは、W$の完全な行列の行をクラスタリングすることによって得られるものと同等に優れていることが示された。
論文 参考訳(メタデータ) (2020-12-01T13:31:44Z) - Compressed Deep Networks: Goodbye SVD, Hello Robust Low-Rank
Approximation [23.06440095688755]
ニューラルネットワークを圧縮する一般的な手法は、完全に接続された層(または埋め込み層)に対応する行列$AinmathbbRntimes d$の$k$-rank $ell$近似$A_k,2$を計算することである。
ここで$d$は層内のニューロンの数、$n$は次のニューロンの数、$A_k,2$は$O(n+d)k)$メモリに格納できる。
これ
論文 参考訳(メタデータ) (2020-09-11T20:21:42Z) - Maximizing Determinants under Matroid Constraints [69.25768526213689]
我々は、$det(sum_i in Sv_i v_i v_itop)$が最大になるような基底を$S$$$$M$とする問題を研究する。
この問題は、実験的なデザイン、商品の公平な割り当て、ネットワーク設計、機械学習など、さまざまな分野に現れている。
論文 参考訳(メタデータ) (2020-04-16T19:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。