論文の概要: Improved Knowledge Distillation via Full Kernel Matrix Transfer
- arxiv url: http://arxiv.org/abs/2009.14416v2
- Date: Tue, 29 Mar 2022 18:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:14:53.477162
- Title: Improved Knowledge Distillation via Full Kernel Matrix Transfer
- Title(参考訳): フルカーネルマトリックストランスファーによる知識蒸留の改善
- Authors: Qi Qian, Hao Li, Juhua Hu
- Abstract要約: 知識蒸留は深層学習におけるモデル圧縮に有効な方法である。
元の完全行列をNystr"om法で分解する。
完全行列と比較して、部分行列のサイズは例の数で線型である。
- 参考スコア(独自算出の注目度): 21.533095275253466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is an effective way for model compression in deep
learning. Given a large model (i.e., teacher model), it aims to improve the
performance of a compact model (i.e., student model) by transferring the
information from the teacher. Various information for distillation has been
studied. Recently, a number of works propose to transfer the pairwise
similarity between examples to distill relative information. However, most of
efforts are devoted to developing different similarity measurements, while only
a small matrix consisting of examples within a mini-batch is transferred at
each iteration that can be inefficient for optimizing the pairwise similarity
over the whole data set. In this work, we aim to transfer the full similarity
matrix effectively. The main challenge is from the size of the full matrix that
is quadratic to the number of examples. To address the challenge, we decompose
the original full matrix with Nystr{\"{o}}m method. By selecting appropriate
landmark points, our theoretical analysis indicates that the loss for transfer
can be further simplified. Concretely, we find that the difference between the
original full kernel matrices between teacher and student can be well bounded
by that of the corresponding partial matrices, which only consists of
similarities between original examples and landmark points. Compared with the
full matrix, the size of the partial matrix is linear in the number of
examples, which improves the efficiency of optimization significantly. The
empirical study on benchmark data sets demonstrates the effectiveness of the
proposed algorithm. Code is available at \url{https://github.com/idstcv/KDA}.
- Abstract(参考訳): 知識蒸留は深層学習におけるモデル圧縮に有効な方法である。
大きなモデル(すなわち教師モデル)が与えられた場合、教師から情報を転送することで、コンパクトモデル(すなわち学生モデル)のパフォーマンスを向上させることを目的としている。
蒸留に関する様々な情報が研究されている。
近年,実例間の相似性を蒸留関連情報に移すことが提案されている。
しかしながら、ほとんどの努力は異なる類似度測定の開発に費やされているが、各イテレーションでミニバッチ内の例からなる小さな行列のみが転送され、データセット全体のペアの類似度を最適化するのに非効率である。
本研究では,完全類似度行列を効率的に転送することを目的とする。
主な課題は、例の数に二次的な全行列の大きさからである。
この課題に対処するために、元のフルマトリクスをnystr{\"{o}}mメソッドで分解する。
適切なランドマークポイントを選択することで、移動の損失をさらに単純化できることを示す理論的解析を行う。
具体的には, 元のカーネル行列と教師と学生との差は, 元の例とランドマーク点の類似点のみからなる部分行列の差分で十分有界であることが判明した。
フルマトリクスと比較すると、部分マトリクスのサイズは例数で線形であり、最適化の効率を大幅に改善する。
ベンチマークデータセットに関する実証研究は,提案アルゴリズムの有効性を示す。
コードは \url{https://github.com/idstcv/KDA} で入手できる。
関連論文リスト
- Optimal Matrix-Mimetic Tensor Algebras via Variable Projection [0.0]
行列緩和性(Matrix mimeticity)は、テンソルを、行列に類似した乗算、分解、解析が可能な作用素として解釈することから生じる。
我々は、データの事前の知識に頼ることなく、最適線形写像と対応するテンソル表現を学習する。
可変射影型アルゴリズムの変換と収束解析の独創性理論を提供する。
論文 参考訳(メタデータ) (2024-06-11T04:52:23Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Multiresolution kernel matrix algebra [0.0]
本研究では, あるS形式において, 最適スパース行列を生成するサンプルレットを用いて, カーネル行列の圧縮を示す。
カーネル行列の逆数(もし存在するなら)は S-形式でも圧縮可能である。
行列代数は擬微分計算によって数学的に正当化される。
論文 参考訳(メタデータ) (2022-11-21T17:50:22Z) - Doubly Deformable Aggregation of Covariance Matrices for Few-shot
Segmentation [25.387090319723715]
注釈付きサンプルの少ないセマンティックセグメンテーションモデルを訓練することは、実世界の様々な応用に大きな可能性を持っている。
数ショットのセグメンテーションタスクでは、サポートとクエリサンプル間のセマンティック対応を正確に測定する方法が主な課題である。
本稿では,学習可能な共分散行列を変形可能な4次元変換器で集約し,セグメント化マップを効果的に予測する。
論文 参考訳(メタデータ) (2022-07-30T20:41:38Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Sublinear Time Approximation of Text Similarity Matrices [50.73398637380375]
一般的なNystr"om法を不確定な設定に一般化する。
我々のアルゴリズムは任意の類似性行列に適用でき、行列のサイズでサブ線形時間で実行される。
本手法は,CUR分解の単純な変種とともに,様々な類似性行列の近似において非常によく機能することを示す。
論文 参考訳(メタデータ) (2021-12-17T17:04:34Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Statistical limits of dictionary learning: random matrix theory and the
spectral replica method [28.54289139061295]
ベイズ最適設定における行列記述と辞書学習の複雑なモデルについて考察する。
本稿では, 統計力学とランダム行列理論, スペクトル複製法を組み合わせた新しいレプリカ法を提案する。
論文 参考訳(メタデータ) (2021-09-14T12:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。