論文の概要: The Impact of Depth and Width on Transformer Language Model
Generalization
- arxiv url: http://arxiv.org/abs/2310.19956v1
- Date: Mon, 30 Oct 2023 19:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:48:28.758867
- Title: The Impact of Depth and Width on Transformer Language Model
Generalization
- Title(参考訳): トランスフォーマー言語モデル一般化における深さと幅の影響
- Authors: Jackson Petty, Sjoerd van Steenkiste, Ishita Dasgupta, Fei Sha, Dan
Garrette, Tal Linzen
- Abstract要約: 我々は、最近の理論的および実証的な研究によって動機付けられた仮説を検証し、トランスフォーマーはより深い(より多くの層を持つ)ときにより構成的に一般化する。
単にレイヤーを追加するだけでパラメータの総数が増加し、深さとサイズが曖昧になるので、深さを幅と交換するモデルの3つのクラスを構築します。
1) 微調整後, より深いモデルにより, より浅いモデルよりも配当性の向上が図られるが, 付加層の相対的利益は急速に減少する。
- 参考スコア(独自算出の注目度): 44.33567759996458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To process novel sentences, language models (LMs) must generalize
compositionally -- combine familiar elements in new ways. What aspects of a
model's structure promote compositional generalization? Focusing on
transformers, we test the hypothesis, motivated by recent theoretical and
empirical work, that transformers generalize more compositionally when they are
deeper (have more layers). Because simply adding layers increases the total
number of parameters, confounding depth and size, we construct three classes of
models which trade off depth for width such that the total number of parameters
is kept constant (41M, 134M and 374M parameters). We pretrain all models as LMs
and fine-tune them on tasks that test for compositional generalization. We
report three main conclusions: (1) after fine-tuning, deeper models generalize
better out-of-distribution than shallower models do, but the relative benefit
of additional layers diminishes rapidly; (2) within each family, deeper models
show better language modeling performance, but returns are similarly
diminishing; (3) the benefits of depth for compositional generalization cannot
be attributed solely to better performance on language modeling or on
in-distribution data.
- Abstract(参考訳): 新しい文を処理するには、言語モデル(lms)は構成的に一般化する必要があります。
モデルの構造は構成の一般化を促進するか?
トランスフォーマーに焦点をあてて、我々は最近の理論的および実証的な研究によって動機づけられた仮説を検証し、トランスフォーマーはより深い(より多くの層を持つ)ときにより構成的に一般化する。
単に層を追加するだけでパラメータの総数を増加させ、深さとサイズを両立させるため、パラメータ総数が一定となるように深さと幅を切り替える3種類のモデル(41m,134m,374m)を構築した。
すべてのモデルをlmsとして事前トレーニングし、合成一般化をテストするタスクで微調整します。
1) 微調整後,より深いモデルにより,より浅いモデルよりもより良い分散を一般化するが,追加層による相対的な利益は急速に減少する。(2) それぞれのファミリー内では,より深いモデルの方が優れた言語モデリング性能を示すが,戻り値も同様に減少する,(3) 合成一般化の深さの利点は,言語モデリングや分散データの性能向上にのみ帰着することができない,という3つの結論を報告する。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Compositional Generalisation with Structured Reordering and Fertility
Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。
本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T19:51:31Z) - Exploring and Evaluating Personalized Models for Code Generation [9.25440316608194]
パーソナライズのための変換器モデルの微調整を評価する。
i) すべてのモデルパラメータをチューニングできるカスタム微調整。
コード生成のためのこれらの微調整戦略を比較し、様々なデプロイメントシナリオにおいて、それぞれの潜在的な一般化とコスト効果について議論する。
論文 参考訳(メタデータ) (2022-08-29T23:28:46Z) - Evaluating the Impact of Model Scale for Compositional Generalization in
Semantic Parsing [38.770055054268965]
最近の研究により、モデルスケーリングによる多くのNLPタスクが大幅に改善されている。
ファインチューニングは通常、分布外合成の一般化に対して平坦または負のスケーリング曲線を持つ。
文脈内学習は、正のスケーリング曲線を持つが、一般的には、より小さな微調整モデルよりも優れている。
論文 参考訳(メタデータ) (2022-05-24T17:57:39Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。