Fugu-MT 論文翻訳(概要): Revisiting Offline Compression: Going Beyond Factorization-based Methods for Transformer Language Models

論文の概要: Revisiting Offline Compression: Going Beyond Factorization-based Methods for Transformer Language Models

arxiv url: http://arxiv.org/abs/2302.04045v1
Date: Wed, 8 Feb 2023 13:36:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-09 16:31:14.460388
Title: Revisiting Offline Compression: Going Beyond Factorization-based Methods for Transformer Language Models
Title（参考訳）: オフライン圧縮の再検討: トランスフォーマー言語モデルのための因子化に基づく方法を超える
Authors: Mohammadreza Banaei, Klaudia Ba{\l}azy, Artur Kasymov, R\'emi Lebret, Jacek Tabor, Karl Aberer
Abstract要約: トランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて卓越した結果を達成する。その巨大なサイズは、しばしばメモリ制限されたデバイスを非現実的にし、実践者はそれをより小さなネットワークに圧縮する必要がある。本稿では,圧縮モデルをさらに微調整する必要のないオフライン圧縮手法について検討する。
参考スコア（独自算出の注目度）: 7.542276054279341
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent transformer language models achieve outstanding results in many natural language processing (NLP) tasks. However, their enormous size often makes them impractical on memory-constrained devices, requiring practitioners to compress them to smaller networks. In this paper, we explore offline compression methods, meaning computationally-cheap approaches that do not require further fine-tuning of the compressed model. We challenge the classical matrix factorization methods by proposing a novel, better-performing autoencoder-based framework. We perform a comprehensive ablation study of our approach, examining its different aspects over a diverse set of evaluation settings. Moreover, we show that enabling collaboration between modules across layers by compressing certain modules together positively impacts the final model performance. Experiments on various NLP tasks demonstrate that our approach significantly outperforms commonly used factorization-based offline compression methods.
Abstract（参考訳）: 最近のトランスフォーマー言語モデルは、多くの自然言語処理(NLP)タスクにおいて顕著な結果をもたらす。しかし、その巨大なサイズはメモリ制限されたデバイスでは実用的ではなく、実践者はそれを小さなネットワークに圧縮する必要がある。本稿では,圧縮モデルのさらなる微調整を必要としないオフライン圧縮手法について検討する。我々は,新しい高性能なオートエンコーダベースのフレームワークを提案することで,古典的な行列分解法に挑戦する。我々は,このアプローチを包括的に研究し,その異なる側面を様々な評価条件で検証した。さらに, あるモジュールを一緒に圧縮することで, レイヤ間の協調が最終的なモデル性能に肯定的な影響を与えることを示す。様々なNLPタスクの実験により,本手法は係数化に基づくオフライン圧縮法よりも大幅に優れていることが示された。

関連論文リスト

Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
SEE: Sememe Entanglement Encoding for Transformer-bases Models Compression [20.824040486029354]
トランスフォーマーベースの大規模言語モデルは画期的な能力を示すが、そのストレージと計算コストは高く、リソース制約のあるシナリオでの応用を制限している。効率的なアプローチは、圧縮と性能のバランスを達成するために、効率的な専門家由来の知識構造を取り入れながら、冗長なモデルパラメータと計算コストを排除することである。
論文参考訳（メタデータ） (2024-12-15T12:01:43Z)
Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models [0.0]
世界中のコネクテッドデバイスの数の増加は、計算能力の低いローカルデバイスに容易に展開できる圧縮モデルを保証する。画像分類,オブジェクト検出,言語モデル,生成モデルに基づく問題文に使用される一般的なディープラーニングモデルに対して,量子化とプルーニングの両方を実装した。
論文参考訳（メタデータ） (2024-07-22T14:20:53Z)
Composable Interventions for Language Models [60.32695044723103]
言語モデルのテストタイム介入は、事実の正確性を高め、有害な出力を軽減し、コストのかかる再トレーニングなしにモデルの効率を向上させる。しかし、新しい手法の洪水にもかかわらず、様々な種類の介入が独立して発展している。複数の介入が同じ言語モデルに与える影響を研究するためのフレームワークである構成可能な介入を導入する。
論文参考訳（メタデータ） (2024-07-09T01:17:44Z)
Fast Vocabulary Transfer for Language Model Compression [3.5668409338590195]
本稿では,語彙変換に依存するモデル圧縮手法を提案する。以上の結果から,語彙移動は他の圧縮技術と組み合わせて効果的に活用できることが示唆された。
論文参考訳（メタデータ） (2024-02-15T14:37:07Z)
A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たすモデル圧縮法は、Transformerのメモリと計算コストを削減する。この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文参考訳（メタデータ） (2024-02-05T12:16:28Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文参考訳（メタデータ） (2023-10-09T14:10:21Z)
Exploring Dimensionality Reduction Techniques in Multilingual Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文参考訳（メタデータ） (2022-04-18T17:20:55Z)
Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文参考訳（メタデータ） (2022-03-21T02:11:35Z)
What do Compressed Large Language Models Forget? Robustness Challenges in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文参考訳（メタデータ） (2021-10-16T00:20:04Z)
Direction is what you need: Improving Word Embedding Compression in Large Language Models [7.736463504706344]
本稿では,AutoEncoderアーキテクチャを利用してトランスフォーマーモデルにトークン埋め込みを圧縮する新たな損失目標を提案する。提案手法は,初期の言語モデルであるPerplexityにおいて,よく使われるSVDベースの行列分解手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-15T14:28:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。