Fugu-MT 論文翻訳(概要): Ultra-light deep MIR by trimming lottery tickets

論文の概要: Ultra-light deep MIR by trimming lottery tickets

arxiv url: http://arxiv.org/abs/2007.16187v1
Date: Fri, 31 Jul 2020 17:30:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-04 06:29:11.408598
Title: Ultra-light deep MIR by trimming lottery tickets
Title（参考訳）: 宝くじトリミングによる超軽量深度MIR
Authors: Philippe Esling, Theis Bazin, Adrien Bitton, Tristan Carsault, Ninon Devis
Abstract要約: 抽選券仮説に基づくモデルプルーニング手法を提案する。提案手法は,精度を損なうことなく,最大90%のモデルパラメータを除去できることを示す。圧縮比が小さいほど、より軽量なモデルの方が重いモデルよりずっと優れているという驚くべき結果を確認します。
参考スコア（独自算出の注目度）: 1.2599533416395767
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Current state-of-the-art results in Music Information Retrieval are largely dominated by deep learning approaches. These provide unprecedented accuracy across all tasks. However, the consistently overlooked downside of these models is their stunningly massive complexity, which seems concomitantly crucial to their success. In this paper, we address this issue by proposing a model pruning method based on the lottery ticket hypothesis. We modify the original approach to allow for explicitly removing parameters, through structured trimming of entire units, instead of simply masking individual weights. This leads to models which are effectively lighter in terms of size, memory and number of operations. We show that our proposal can remove up to 90% of the model parameters without loss of accuracy, leading to ultra-light deep MIR models. We confirm the surprising result that, at smaller compression ratios (removing up to 85% of a network), lighter models consistently outperform their heavier counterparts. We exhibit these results on a large array of MIR tasks including audio classification, pitch recognition, chord extraction, drum transcription and onset estimation. The resulting ultra-light deep learning models for MIR can run on CPU, and can even fit on embedded devices with minimal degradation of accuracy.
Abstract（参考訳）: 音楽情報検索における現状の成果は、主にディープラーニングのアプローチに支配されている。これらはすべてのタスクに対して前例のない精度を提供する。しかし、これらのモデルの一貫して見過ごされがちな欠点は、驚くほど複雑であり、それが成功に不可欠であるように思える。本稿では,抽選券仮説に基づくモデル刈り込み手法を提案することで,この問題に対処した。個々の重みをマスクする代わりに、ユニット全体の構造的なトリミングを通じてパラメータを明示的に削除できるように、元のアプローチを変更します。これにより,サイズやメモリ,操作数といった面で,事実上軽量なモデルが実現される。本提案は,精度を損なうことなく,最大90%のモデルパラメータを除去できることを示す。我々は、より小さな圧縮比(ネットワークの最大85%)で、より軽いモデルが、より重いモデルよりも一貫して優れているという驚くべき結果を確認した。我々はこれらの結果を,音声分類,ピッチ認識,コード抽出,ドラムの書き起こし,オンセット推定など,多数のMIRタスクで示す。 MIRの超軽量ディープラーニングモデルはCPU上で動作し、最小限の精度で組み込みデバイスに適合する。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文参考訳（メタデータ） (2024-10-28T17:14:01Z)
Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。提案手法は深層学習モデルの説明可能性を強調する。また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文参考訳（メタデータ） (2024-05-24T18:22:15Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Quantifying lottery tickets under label noise: accuracy, calibration, and complexity [6.232071870655069]
ディープニューラルネットワークのプルーニングは、機械学習の計算負担を軽減するために広く利用されている戦略である。スパース二重降下法を用いて一意的に同定し,分類タスクに付随するプルーンドモデルを特徴付ける。
論文参考訳（メタデータ） (2023-06-21T11:35:59Z)
CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。 CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。 CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文参考訳（メタデータ） (2022-07-28T16:13:28Z)
PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2022-06-25T05:38:39Z)
Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。 MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。 MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文参考訳（メタデータ） (2021-10-21T17:41:56Z)
Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文参考訳（メタデータ） (2021-06-06T00:04:49Z)
Diet deep generative audio models with structured lottery [2.348805691644086]
本研究では,深層再生音声モデルにおける抽選チケット仮説について検討する。モデル重量の最大95%を精度を著しく低下させることなく除去できることを示す。本稿では,組込みプラットフォーム上でのディープ・ジェネレーティブ・オーディオ・モデルの実装の可能性について論じる。
論文参考訳（メタデータ） (2020-07-31T16:43:10Z)
Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文参考訳（メタデータ） (2020-01-09T17:00:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。