論文の概要: Ultra-light deep MIR by trimming lottery tickets
- arxiv url: http://arxiv.org/abs/2007.16187v1
- Date: Fri, 31 Jul 2020 17:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:29:11.408598
- Title: Ultra-light deep MIR by trimming lottery tickets
- Title(参考訳): 宝くじトリミングによる超軽量深度MIR
- Authors: Philippe Esling, Theis Bazin, Adrien Bitton, Tristan Carsault, Ninon
Devis
- Abstract要約: 抽選券仮説に基づくモデルプルーニング手法を提案する。
提案手法は,精度を損なうことなく,最大90%のモデルパラメータを除去できることを示す。
圧縮比が小さいほど、より軽量なモデルの方が重いモデルよりずっと優れているという驚くべき結果を確認します。
- 参考スコア(独自算出の注目度): 1.2599533416395767
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current state-of-the-art results in Music Information Retrieval are largely
dominated by deep learning approaches. These provide unprecedented accuracy
across all tasks. However, the consistently overlooked downside of these models
is their stunningly massive complexity, which seems concomitantly crucial to
their success. In this paper, we address this issue by proposing a model
pruning method based on the lottery ticket hypothesis. We modify the original
approach to allow for explicitly removing parameters, through structured
trimming of entire units, instead of simply masking individual weights. This
leads to models which are effectively lighter in terms of size, memory and
number of operations. We show that our proposal can remove up to 90% of the
model parameters without loss of accuracy, leading to ultra-light deep MIR
models. We confirm the surprising result that, at smaller compression ratios
(removing up to 85% of a network), lighter models consistently outperform their
heavier counterparts. We exhibit these results on a large array of MIR tasks
including audio classification, pitch recognition, chord extraction, drum
transcription and onset estimation. The resulting ultra-light deep learning
models for MIR can run on CPU, and can even fit on embedded devices with
minimal degradation of accuracy.
- Abstract(参考訳): 音楽情報検索における現状の成果は、主にディープラーニングのアプローチに支配されている。
これらはすべてのタスクに対して前例のない精度を提供する。
しかし、これらのモデルの一貫して見過ごされがちな欠点は、驚くほど複雑であり、それが成功に不可欠であるように思える。
本稿では,抽選券仮説に基づくモデル刈り込み手法を提案することで,この問題に対処した。
個々の重みをマスクする代わりに、ユニット全体の構造的なトリミングを通じてパラメータを明示的に削除できるように、元のアプローチを変更します。
これにより,サイズやメモリ,操作数といった面で,事実上軽量なモデルが実現される。
本提案は,精度を損なうことなく,最大90%のモデルパラメータを除去できることを示す。
我々は、より小さな圧縮比(ネットワークの最大85%)で、より軽いモデルが、より重いモデルよりも一貫して優れているという驚くべき結果を確認した。
我々はこれらの結果を,音声分類,ピッチ認識,コード抽出,ドラムの書き起こし,オンセット推定など,多数のMIRタスクで示す。
MIRの超軽量ディープラーニングモデルはCPU上で動作し、最小限の精度で組み込みデバイスに適合する。
関連論文リスト
- Quantifying lottery tickets under label noise: accuracy, calibration,
and complexity [6.232071870655069]
ディープニューラルネットワークのプルーニングは、機械学習の計算負担を軽減するために広く利用されている戦略である。
スパース二重降下法を用いて一意的に同定し,分類タスクに付随するプルーンドモデルを特徴付ける。
論文 参考訳(メタデータ) (2023-06-21T11:35:59Z) - Research without Re-search: Maximal Update Parametrization Yields
Accurate Loss Prediction across Scales [15.327936562875921]
言語モデルが拡大するにつれて、小さなモデルの結論が簡単に大きなモデルに変換されないため、研究のアイデアを検証するのにますますコストがかかる。
本稿では,重計算を伴わない任意のモデルスケールを対象とした信頼性のある学術研究への第一歩として,新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-21T17:41:56Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Diet deep generative audio models with structured lottery [2.348805691644086]
本研究では,深層再生音声モデルにおける抽選チケット仮説について検討する。
モデル重量の最大95%を精度を著しく低下させることなく除去できることを示す。
本稿では,組込みプラットフォーム上でのディープ・ジェネレーティブ・オーディオ・モデルの実装の可能性について論じる。
論文 参考訳(メタデータ) (2020-07-31T16:43:10Z) - Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。
我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。
本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文 参考訳(メタデータ) (2020-01-09T17:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。