Fugu-MT 論文翻訳(概要): Structural Dropout for Model Width Compression

論文の概要: Structural Dropout for Model Width Compression

arxiv url: http://arxiv.org/abs/2205.06906v1
Date: Fri, 13 May 2022 21:50:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-19 08:25:56.096328
Title: Structural Dropout for Model Width Compression
Title（参考訳）: モデル幅圧縮のための構造ドロップアウト
Authors: Julian Knodt
Abstract要約: 既存のMLモデルは高度に過度にパラメータ化され、与えられたタスクに必要なリソースよりもはるかに多くのリソースを使用することが知られている。本稿では,オリジナルのモデルと圧縮モデルのセットに対して,1つのトレーニングセッションのみを必要とする手法を提案する。提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
参考スコア（独自算出の注目度）: 1.52292571922932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing ML models are known to be highly over-parametrized, and use significantly more resources than required for a given task. Prior work has explored compressing models offline, such as by distilling knowledge from larger models into much smaller ones. This is effective for compression, but does not give an empirical method for measuring how much the model can be compressed, and requires additional training for each compressed model. We propose a method that requires only a single training session for the original model and a set of compressed models. The proposed approach is a "structural" dropout that prunes all elements in the hidden state above a randomly chosen index, forcing the model to learn an importance ordering over its features. After learning this ordering, at inference time unimportant features can be pruned while retaining most accuracy, reducing parameter size significantly. In this work, we focus on Structural Dropout for fully-connected layers, but the concept can be applied to any kind of layer with unordered features, such as convolutional or attention layers. Structural Dropout requires no additional pruning/retraining, but requires additional validation for each possible hidden sizes. At inference time, a non-expert can select a memory versus accuracy trade-off that best suits their needs, across a wide range of highly compressed versus more accurate models.
Abstract（参考訳）: 既存のmlモデルは非常に過度にパラメータ化されており、所定のタスクに必要なリソースをはるかに多く使用しています。以前の研究では、より大きなモデルからの知識をもっと小さなモデルに蒸留するなど、モデルをオフラインで圧縮することを検討した。これは圧縮に有効であるが、モデルが圧縮できる量を測定するための経験的な方法を提供しておらず、圧縮されたモデルごとに追加のトレーニングを必要とする。本稿では,オリジナルモデルと圧縮モデルのセットに対して,単一のトレーニングセッションのみを必要とする手法を提案する。提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。この順序を学習した後、最も精度を保ちながら、推定時に重要でない特徴を刈り取ることができ、パラメータサイズを大幅に削減できる。本研究では,完全連結層の構造的ドロップアウトに焦点をあてるが,概念は畳み込み層や注意層などの無秩序な特徴を持つ任意の層に適用できる。構造的なドロップアウトは追加のpruning/retrainingを必要としないが、隠れたサイズごとに追加の検証が必要になる。推論時に、非専門家は、要求に最も適したメモリ対精度のトレードオフを、高度に圧縮されたモデルとより正確なモデルで選択することができる。

関連論文リスト

Pruning General Large Language Models into Customized Expert Models [78.96891010334852]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その相当なモデルサイズは、しばしばかなりの計算資源を必要とする。そこで本研究では,より小型のエキスパートモデルに大容量の一般モデルを組み込む手法を提案する。各次元の無関係ニューロンを識別し、プルーニングすることにより、$textttCus-Prun$は、ポストトレーニングなしで専門家モデルを作成する。
論文参考訳（メタデータ） (2025-06-03T07:47:30Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Representing Model Weights with Language using Tree Experts [39.90685550999956]
本稿では,モデル重みと言語の両方を組み込んだ共同空間内のモデルを表現することを学ぶ。 Probing Experts (ProbeX) は理論的に動機づけられた軽量な探査手法である。以上の結果から, ProbeX は大規模モデルの重みを共有重み付き埋め込み空間に効果的にマッピングできることが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:17:09Z)
Application Specific Compression of Deep Learning Models [0.8875650122536799]
大規模なディープラーニングモデルは圧縮され、特定のアプリケーションにデプロイされる。私たちのゴールは、モデル圧縮プロセスをカスタマイズして、ターゲットアプリケーションにより良いパフォーマンスをもたらす圧縮モデルを作成することです。抽出QA, 自然言語推論, パラフレーズ同定の3つの応用について, BERTファミリを用いて実験を行った。
論文参考訳（メタデータ） (2024-09-09T06:55:38Z)
When Attention Collapses: How Degenerate Layers in LLMs Enable Smaller, Stronger Models [61.363259848264725]
Inherituneは、より小さく、より効率的な言語モデルを構築するための、シンプルで効果的なトレーニングレシピである。 Inherituneのトレーニングしたモデルは、レイヤーが大幅に少ないにもかかわらず、より大きなモデルにマッチしたり、性能を上回ります。
論文参考訳（メタデータ） (2024-04-12T17:53:34Z)
Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。 CBMには、さらなる概念のセットが必要である。 CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文参考訳（メタデータ） (2024-04-04T09:43:43Z)
LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文参考訳（メタデータ） (2024-02-17T04:16:30Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文参考訳（メタデータ） (2022-10-11T03:02:40Z)
Train Flat, Then Compress: Sharpness-Aware Minimization Learns More Compressible Models [7.6356407698088]
不要なパラメータを抽出することは、大きなモデルを圧縮するための単純で効果的な方法として現れている。平らな最小値の最適化は、標準Adamの最適化よりもパラメータの圧縮性が高いことを示す。
論文参考訳（メタデータ） (2022-05-25T11:54:37Z)
Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文参考訳（メタデータ） (2021-08-26T04:42:24Z)
NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。 NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。 GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文参考訳（メタデータ） (2021-05-30T07:20:27Z)
Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文参考訳（メタデータ） (2020-07-03T04:18:54Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。