Fugu-MT 論文翻訳(概要): Frustratingly Simple Memory Efficiency for Pre-trained Language Models via Dynamic Embedding Pruning

論文の概要: Frustratingly Simple Memory Efficiency for Pre-trained Language Models via Dynamic Embedding Pruning

arxiv url: http://arxiv.org/abs/2309.08708v1
Date: Fri, 15 Sep 2023 19:00:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 19:53:46.799698
Title: Frustratingly Simple Memory Efficiency for Pre-trained Language Models via Dynamic Embedding Pruning
Title（参考訳）: 動的埋め込みプルーニングによる事前学習言語モデルのフラストレーション的単純メモリ効率
Authors: Miles Williams, Nikolaos Aletras
Abstract要約: プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
参考スコア（独自算出の注目度）: 42.652021176354644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The extensive memory footprint of pre-trained language models (PLMs) can hinder deployment in memory-constrained settings, such as cloud environments or on-device. PLMs use embedding matrices to represent extensive vocabularies, forming a large proportion of the model parameters. While previous work towards parameter-efficient PLM development has considered pruning parameters within the transformer layers, pruning the embedding matrix as part of fine-tuning or inference has yet to be explored. We first demonstrate that a significant proportion of the vocabulary remains unused in these scenarios. We then propose a simple yet effective approach that leverages this finding to minimize the memory footprint of the embedding matrix. We show that this approach provides substantial reductions in memory usage across a wide range of models and tasks. Notably, our approach maintains equivalent downstream task performance while allowing a more efficient use of compute resources.
Abstract（参考訳）: 事前訓練された言語モデル(PLM)の広範なメモリフットプリントは、クラウド環境やオンデバイスなど、メモリ制限された設定でのデプロイメントを妨げる可能性がある。 PLMは埋め込み行列を用いて広い語彙を表現し、モデルパラメータのかなりの割合を形成する。従来,パラメータ効率の高いPLM開発に向けた研究は変圧器層内のプルーニングパラメータを検討したが,微細調整や推論の一部として埋め込み行列をプルーニングすることはまだ検討されていない。まず、これらのシナリオでは語彙のかなりの割合が使われていないことを示す。次に、この発見を利用して埋め込み行列のメモリフットプリントを最小化する、単純かつ効果的なアプローチを提案する。このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。特に当社のアプローチでは,計算リソースをより効率的に利用しながら,同等のダウンストリームタスクパフォーマンスを維持しています。

関連論文リスト

Leveraging Lightweight Generators for Memory Efficient Continual Learning [0.01874930567916036]
破滅的な忘れは、すべてのデータを以前のタスクからメモリに保持することで、簡単に軽減できる。本稿では,メモリベースの連続学習アルゴリズムに必要なメモリを削減することを目的とする。
論文参考訳（メタデータ） (2025-06-24T14:59:52Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models [22.725326215887435]
本稿では,事前学習および微調整を行う大規模言語モデルのためのランダム化部分空間最適化フレームワークを提案する。提案手法は,高次元学習問題を一連の低次元サブプロブレムに分解する。この構造的次元減少により,アクティベーションと状態の両方のメモリ使用量を同時に削減できる。
論文参考訳（メタデータ） (2025-02-11T03:32:10Z)
Wavelet Meets Adam: Compressing Gradients for Memory-Efficient Training [45.225732322141994]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで優れたパフォーマンスを発揮する。彼らの膨大な数のパラメータは、トレーニング中に大きな記憶障害を引き起こします。既存のメモリ効率のアルゴリズムは、特異値分解プロジェクションや重み凍結のような技術に依存していることが多い。本稿では,グラディエントウェーブレット変換(GWT)と呼ばれる新しい解を提案する。
論文参考訳（メタデータ） (2025-01-13T11:35:09Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values [12.137869917556415]
大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
論文参考訳（メタデータ） (2024-09-09T08:44:53Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information [5.756323337411276]
大規模言語モデル(LLM)は、機械翻訳、テキスト生成、感情分析などの高度な自然言語処理タスクを持つ。数十億のパラメータで構成されるその大きなサイズは、ストレージ、計算、デプロイメントの課題を提起する。我々は,LLMの効率的なブロックワイズ後量子化のための新しいアルゴリズムであるAthenaを提案する。
論文参考訳（メタデータ） (2024-05-24T03:14:29Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning [6.451743797015637]
本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。 MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。 MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
論文参考訳（メタデータ） (2023-06-01T09:26:17Z)
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文参考訳（メタデータ） (2023-05-25T07:39:41Z)
Numerical Optimizations for Weighted Low-rank Estimation on Language Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-02T00:58:02Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)
Memory Efficient Continual Learning for Neural Text Classification [10.70710638820641]
そこで本研究では,事前学習モデルを用いてテキスト分類を行う手法を提案する。実験により,本手法では,他の手法と比較して,モデルパラメータが著しく少ないことが実証された。我々の手法はほとんど忘れられませんが、予測性能は技術水準と同等に保たれますが、メモリ効率は低いです。
論文参考訳（メタデータ） (2022-03-09T10:57:59Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Direction is what you need: Improving Word Embedding Compression in Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-15T14:28:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。