論文の概要: Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture
- arxiv url: http://arxiv.org/abs/2303.16753v2
- Date: Tue, 11 Apr 2023 02:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 17:41:58.907492
- Title: Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture
- Title(参考訳): パラメータ効率アーキテクチャによる事前学習型言語モデルのスケーリング
- Authors: Peiyu Liu, Ze-Feng Gao, Yushuo Chen, Wayne Xin Zhao, Ji-Rong Wen
- Abstract要約: 行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
- 参考スコア(独自算出の注目度): 68.13678918660872
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we propose a highly parameter-efficient approach to scaling
pre-trained language models (PLMs) to a deeper model depth. Unlike prior work
that shares all parameters or uses extra blocks, we design a more capable
parameter-sharing architecture based on matrix product operator (MPO). MPO
decomposition can reorganize and factorize the information of a parameter
matrix into two parts: the major part that contains the major information
(central tensor) and the supplementary part that only has a small proportion of
parameters (auxiliary tensors). Based on such a decomposition, our architecture
shares the central tensor across all layers for reducing the model size and
meanwhile keeps layer-specific auxiliary tensors (also using adapters) for
enhancing the adaptation flexibility. To improve the model training, we further
propose a stable initialization algorithm tailored for the MPO-based
architecture. Extensive experiments have demonstrated the effectiveness of our
proposed model in reducing the model size and achieving highly competitive
performance.
- Abstract(参考訳): 本稿では,事前学習言語モデル(PLM)をより深いモデル深度に拡張するための,パラメータ効率の高い手法を提案する。
全てのパラメータを共有したり余分なブロックを使う以前の作業とは異なり、行列積演算子(MPO)に基づいたより有能なパラメータ共有アーキテクチャを設計する。
mpo分解は、パラメータ行列の情報を2つの部分に分けて再編成し分解することができる: 主要な情報(中央テンソル)を含む主要部分と、パラメータ(副テンソル)の少ない部分(副テンソル)である。
このような分解に基づいて、我々のアーキテクチャはモデルサイズを縮小する中央テンソルを共有し、一方、適応性を高めるために層固有の補助テンソル(アダプタも使用)を保持する。
モデルトレーニングを改善するために,MPOアーキテクチャに適した安定初期化アルゴリズムを提案する。
大規模実験により,提案モデルの有効性が実証され,性能が向上した。
関連論文リスト
- Simulated Overparameterization [35.12611686956487]
SOP(Simulated Overparametrization)と呼ばれる新しいパラダイムを導入する。
SOPは、モデルトレーニングと推論に対するユニークなアプローチを提案し、パラメータのより小さく効率的なサブセットが推論中の実際の計算に使用されるように、非常に多くのパラメータを持つモデルを訓練する。
本稿では,トランスフォーマーモデルを含む主要なアーキテクチャとシームレスに統合する,新しいアーキテクチャ非依存のアルゴリズム"Majority kernels"を提案する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for
Segment Anything Model [86.41316628084464]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。
本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文 参考訳(メタデータ) (2023-11-08T23:57:03Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Enabling Lightweight Fine-tuning for Pre-trained Language Model
Compression based on Matrix Product Operators [31.461762905053426]
本稿では,量子多体物理学の行列積演算子(MPO)に基づく,新しい事前学習言語モデル(PLM)圧縮手法を提案する。
提案手法は, より軽量なネットワークを導出し, 微調整を行うパラメータを大幅に削減する, 汎用的な手法でオリジナルのPLMや圧縮PLMに適用することができる。
論文 参考訳(メタデータ) (2021-06-04T01:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。