論文の概要: Lessons on Parameter Sharing across Layers in Transformers
- arxiv url: http://arxiv.org/abs/2104.06022v4
- Date: Fri, 2 Jun 2023 11:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 21:36:33.764125
- Title: Lessons on Parameter Sharing across Layers in Transformers
- Title(参考訳): 変圧器における層間パラメータ共有の教訓
- Authors: Sho Takase and Shun Kiyono
- Abstract要約: 提案手法は,Universal Transformerなどのすべてのレイヤでひとつのレイヤのパラメータを共有する,広く使用されている手法を緩和する。
本稿では、各層にパラメータを割り当てるシーケンス、サイクル、サイクル(rev)の3つの戦略を提案する。
実験結果から,提案手法はパラメータサイズと計算時間において効率的であることが示唆された。
- 参考スコア(独自算出の注目度): 22.6785395674949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a parameter sharing method for Transformers (Vaswani et al.,
2017). The proposed approach relaxes a widely used technique, which shares
parameters for one layer with all layers such as Universal Transformers
(Dehghani et al., 2019), to increase the efficiency in the computational time.
We propose three strategies: Sequence, Cycle, and Cycle (rev) to assign
parameters to each layer. Experimental results show that the proposed
strategies are efficient in the parameter size and computational time.
Moreover, we indicate that the proposed strategies are also effective in the
configuration where we use many training data such as the recent WMT
competition.
- Abstract(参考訳): 本稿ではトランスフォーマーのパラメータ共有手法を提案する(Vaswani et al., 2017)。
提案手法は,Universal Transformers (Dehghani et al., 2019) などの全層で1層のパラメータを共有することで,計算時間の効率を向上させるために広く利用されている手法を緩和する。
各層にパラメータを割り当てるためのシーケンス、サイクル、サイクル(rev)の3つの戦略を提案する。
実験の結果,提案手法はパラメータサイズと計算時間において効率的であることが判明した。
また,提案手法は,最近のWMTコンペティションなど,多くのトレーニングデータを使用する構成においても有効であることを示す。
関連論文リスト
- SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。
SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文 参考訳(メタデータ) (2024-10-09T19:03:52Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Exploring the Benefits of Differentially Private Pre-training and
Parameter-Efficient Fine-tuning for Table Transformers [56.00476706550681]
Table Transformer(TabTransformer)は最先端のニューラルネットワークモデルであり、差分プライバシ(DP)はデータのプライバシを確保する上で不可欠なコンポーネントである。
本稿では,これら2つの側面を組み合わせ,伝達学習のシナリオで組み合わせることのメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-12T19:08:26Z) - Parameter-Efficient Fine-Tuning Design Spaces [63.954953653386106]
パラメータ効率の良いファインチューニング設計パラダイムを提案し、異なる実験環境に適用可能な設計パターンを探索する。
実験により,これらの手法は,異なるバックボーンモデルと自然言語処理における異なるタスク間のパラメータ効率の高い微調整戦略を連続的に,かつ著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-01-04T21:00:18Z) - Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文 参考訳(メタデータ) (2021-01-01T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。