Fugu-MT 論文翻訳(概要): Structured Pattern Pruning Using Regularization

論文の概要: Structured Pattern Pruning Using Regularization

arxiv url: http://arxiv.org/abs/2109.08814v1
Date: Sat, 18 Sep 2021 03:01:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-21 16:56:51.025665
Title: Structured Pattern Pruning Using Regularization
Title（参考訳）: 正規化を用いた構造化パターンプルーニング
Authors: Dongjun Park, Geung-Hee Lee
Abstract要約: イテレーティブ・マグニチュード・プルーニング(IMP)は、最小等級の重みを除去し、モデルを再訓練するネットワーク・プルーニング法である。以前の研究では、構造パターンが出現し、結果として得られた重量が行列のいくつかの行や列に顕著に集まる傾向があることが示されている。 IMPの目的関数に正規化項を追加することにより、圧縮における構造化パターンを事前に誘導する新しいプルーニング機構であるSPURを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Iterative Magnitude Pruning (IMP) is a network pruning method that repeats the process of removing weights with the least magnitudes and retraining the model. When visualizing the weight matrices of language models pruned by IMP, previous research has shown that a structured pattern emerges, wherein the resulting surviving weights tend to prominently cluster in a select few rows and columns of the matrix. Though the need for further research in utilizing these structured patterns for potential performance gains has previously been indicated, it has yet to be thoroughly studied. We propose SPUR (Structured Pattern pruning Using Regularization), a novel pruning mechanism that preemptively induces structured patterns in compression by adding a regularization term to the objective function in the IMP. Our results show that SPUR can significantly preserve model performance under high sparsity settings regardless of the language or the task. Our contributions are as follows: (i) We propose SPUR, a network pruning mechanism that improves upon IMP regardless of the language or the task. (ii) We are the first to empirically verify the efficacy of "structured patterns" observed previously in pruning research. (iii) SPUR is a resource-efficient mechanism in that it does not require significant additional computations.
Abstract（参考訳）: イテレーティブ・マグニチュード・プルーニング(英語版)(imp)はネットワーク・プルーニング法であり、最小のマグニチュードで重みを取り除き、モデルを再訓練するプロセスを繰り返す。 IMPにより計算された言語モデルの重み行列を可視化すると、構造化されたパターンが出現し、結果として得られた重みが行列のいくつかの行や列に顕著に集まる傾向が示されている。これらの構造化パターンをパフォーマンス向上に利用するためのさらなる研究の必要性は以前から示されているが、まだ十分に研究されていない。本研究では、IMPの目的関数に正規化項を追加することで、圧縮において構造化パターンをプリエンプティブに誘導する新しいプルーニング機構であるSPURを提案する。この結果から,SPURは言語やタスクに関わらず,高い空間設定下でモデル性能を著しく維持できることがわかった。私たちの貢献は次のとおりです。 (i)言語やタスクに関わらずIMPを改善するネットワークプルーニング機構であるSPURを提案する。 (II) プレニング研究で観察された「構造化パターン」の有効性を実証的に検証したのは, 初めてである。 (iii)SPURは資源効率のよいメカニズムであり、追加の計算は不要である。

関連論文リスト

SHAP-Guided Regularization in Machine Learning Models [1.0515439489916734]
本稿では,特徴量制約をモデルトレーニングに組み込んだSHAP誘導正規化フレームワークを提案する。提案手法は, アントロピーに基づくペナルティを応用し, スパース, 集中した特徴属性の促進と, 試料間の安定性の促進を図った。
論文参考訳（メタデータ） (2025-07-31T15:45:38Z)
KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks [9.512147747894026]
勾配流を2つの作用素を含む積に分解する方法を示す。それらの相互作用がGDの下での低次元潜在力学にどのように影響するかを示す。マルチタスクトレーニングでは,各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
論文参考訳（メタデータ） (2025-07-08T20:33:15Z)
Weight-Space Linear Recurrent Neural Networks [0.5937476291232799]
WARP(Weight-space Adaptive Recurrent Prediction)は、重み空間学習を線形反復で統一する強力なフレームワークである。 WARPは、様々な分類タスクにおいて最先端のベースラインと一致しているか、あるいは超越しているかを示す。
論文参考訳（メタデータ） (2025-06-01T20:13:28Z)
Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-29T05:03:29Z)
Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文参考訳（メタデータ） (2025-03-31T10:16:03Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
State-space models can learn in-context by gradient descent [1.3087858009942543]
本研究では、状態空間モデルアーキテクチャが勾配に基づく学習を実行し、文脈内学習に使用できることを実証する。局所自己アテンションを付加した単一構造状態空間モデル層が暗黙線形モデルの出力を再現できることを実証する。理論的構成は、基礎モデルの典型的な表現力を実現するための鍵となる要素として、繰り返しアーキテクチャにおける局所的な自己注意と乗法的相互作用の役割を解明する。
論文参考訳（メタデータ） (2024-10-15T15:22:38Z)
Autoregressive Moving-average Attention Mechanism for Time Series Forecasting [9.114664059026767]
本稿では,各種の線形アテンション機構に適応可能な自己回帰(AR)移動平均アテンション構造を提案する。本稿では、まず、時系列予測(TSF)タスクに対して、これまで見過ごされていたデコーダのみの自己回帰変換モデルが、最良のベースラインに匹敵する結果が得られることを実証する。
論文参考訳（メタデータ） (2024-10-04T05:45:50Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。 Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文参考訳（メタデータ） (2024-07-05T16:14:53Z)
TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文参考訳（メタデータ） (2024-06-25T04:01:32Z)
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文参考訳（メタデータ） (2024-04-15T11:53:22Z)
Efficient Compression of Overparameterized Deep Models through Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文参考訳（メタデータ） (2023-11-08T23:57:03Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
What Matters In The Structured Pruning of Generative Language Models? [44.86217321428518]
GPT-3のような自動回帰型大規模言語モデルは膨大な計算資源を必要とする。伝統的に、資源使用量を減らすために構造化プルーニング法が用いられている。我々は,緑化モデルにおけるニューロンの特異性を改善するため,GUM(Globally Unique Movement)を導入する。
論文参考訳（メタデータ） (2023-02-07T22:05:55Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文参考訳（メタデータ） (2022-02-16T14:17:37Z)
Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文参考訳（メタデータ） (2020-01-23T02:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。